Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head Synthesis

#336

summarized by : Naoya Chiba

Shuai Shen; Wanhua Li; Zheng Zhu; Yueqi Duan; Jie Zhou; Jiwen Lu

どんな論文か？

Few-shotでNeRFベースのTalking Head Synthesis（音声から話している顔画像シーケンスを合成）する手法の提案．各時刻での顔の変形を2D画像のリファレンスに対するワープとしてモデル化することで，15秒程度の動画のみから学習することができる．

新規性

NeRFをTalking Head Synthesisに適用・ワープによるモデル化によって効率よくデータを利用でき少数のデータから学習できるようにした点が新規．音声はDeepSpeechのRNNとAttentionで処理しておき，時系列の情報も持つ各時刻の特徴量に変換，各時刻での変形に対応した座標の特徴量を集約してNeRFのその座標でのConditionとする．

結果

AD-NeRFが収集したシーケンスで検証，AD-NeRFと同様にFace2Faceで頭の姿勢を推定して用いる．画像品質・再構成品質の指標の他，SyncNetによる同期スコアで比較し，少ないエポックで優れた性能を達成している．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．