#5
summarized by : Kosuke Fukazawa
MotionCLIP: Exposing Human Motion Generation to CLIP Space

どんな論文か?

モーションをCLIP空間に埋め込むAutoEncoderを学習し、Text to Motionや、データセットに存在しないout of domainなモーション生成に挑戦する研究。昨年ICCVのACTORをベースとしたAutoEncoderを作成、その潜在空間をCLIP空間に近づけるために、モーション・テキスト、モーション・render画像ペアで学習。
placeholder

新規性

CLIP空間をモーション生成に拡張した点。同時期に同じようにCLIPを用いる手法(AvatarCLIP、CLIP-Actor)が登場している。本手法はこれらの手法よりも良くEncode, Decodeができると主張している。

結果

BABELデータセットを用いて学習。既存のText to Motion手法との比較や、Motion Style Transferとの比較などでどちらを好むのか検証。Text to Motionでは既存手法を上回る。その他潜在空間でのモーション編集などの活用を示す。

その他(なぜ通ったか?等)

github: https://github.com/GuyTevet/MotionCLIP project page: https://guytevet.github.io/motionclip-page/ 正直、とりあえずCLIPを使ってみた印象が強い。 同著者によって公開された Human Motion Diffusion Modelは高品質なモーションを合成できるため必見。