TEMOS: Generating Diverse Human Motions from Textual Descriptions

summarized by : Kosuke Fukazawa

Mathis Petrovich; Michael J. Black; Gül Varol

どんな論文か？

テキストから多様なモーションを生成する研究。前年度ICCVのラベルからモーションを生成するACTOR(同著者、VAE構造)を拡張、DistilBERTによって埋め込まれたテキスト特徴を入力とするText Encoderと、Motion Encoderを対称となるように学習し、テスト時にはテキストからモーション生成を可能にする。

新規性

初期姿勢などを指定せずに、テキスト説明から多様な3次元モーションを、任意の時間長で生成する点。なお現在ではHumanML3Dなどの大規模な言語モーションデータがあり、Diffusionモデルを用いたモデルなど同様のタスクに取り組む手法が増えている。

結果

Average Positional Error (APE)とAverage Variance Error (AVE)で定量評価。Amazon Mechanical Turk (AMT)でテキストとモーションの一致、モーションのリアルさを定性評価。どちらもほとんど既存手法を上回る結果。

その他（なぜ通ったか？等）

github: https://github.com/Mathux/TEMOS project page: https://mathis.petrovich.fr/temos/ 同様のタスク(Text to Motion)に取り組むMotionCLIP、TM2TなどもECCVに採択されている。

このページで利用されている画像は論文から引用しています．