Alexander Richard, Michael Zollhofer, Yandong Wen, Fernando de la Torre, Yaser Sheikh
スピーチの音源から顔全体の3Dアニメーションを生成する方法を提案した論文。Cross-modality Disentanglementにより音源に相関する部位と無相関な部位を分けることで汎用的に顔全体のリアルな再構成を可能とした。
Cross-modality lossを導入し、顔上部と口元をそれぞれ独立した入力から再構成した。
Perceptual studyにより既存のSoTAモデルより75%い以上リアルである評価となった。
顔の動きを他の人物の顔にマッピングすることに成功した。