MeshTalk: 3D Face Animation From Speech Using Cross-Modality Disentanglement

#129

summarized by : 松澤郁哉

Alexander Richard, Michael Zollhofer, Yandong Wen, Fernando de la Torre, Yaser Sheikh

スピーチの音源から顔全体の3Dアニメーションを生成する方法を提案した論文。Cross-modality Disentanglementにより音源に相関する部位と無相関な部位を分けることで汎用的に顔全体のリアルな再構成を可能とした。

Cross-modality lossを導入し、顔上部と口元をそれぞれ独立した入力から再構成した。

Perceptual studyにより既存のSoTAモデルより75%い以上リアルである評価となった。顔の動きを他の人物の顔にマッピングすることに成功した。

このページで利用されている画像は論文から引用しています．