Ruilong Li, Shan Yang, David A. Ross, Angjoo Kanazawa
音楽と2秒の初動の入力からリアルな3Dダンスモーションを生成するモデルと新たな3Dダンスデータセットを提案した論文
学習にFull Attention Cross-Modal Transformer ネットワークを導入。また、AISTデータセットにカメラパラメータなどを新たに加えた最大級の3DダンスデータセットAIST++を提案。
既存のSOTAモデルよりもリアルなモーション生成ができた。入力音楽に対する相関や多様性も既存のものを上回った。