#336
summarized by : Naoya Chiba
Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head Synthesis

どんな論文か?

Few-shotでNeRFベースのTalking Head Synthesis(音声から話している顔画像シーケンスを合成)する手法の提案.各時刻での顔の変形を2D画像のリファレンスに対するワープとしてモデル化することで,15秒程度の動画のみから学習することができる.
placeholder

新規性

NeRFをTalking Head Synthesisに適用・ワープによるモデル化によって効率よくデータを利用でき少数のデータから学習できるようにした点が新規.音声はDeepSpeechのRNNとAttentionで処理しておき,時系列の情報も持つ各時刻の特徴量に変換,各時刻での変形に対応した座標の特徴量を集約してNeRFのその座標でのConditionとする.

結果

AD-NeRFが収集したシーケンスで検証,AD-NeRFと同様にFace2Faceで頭の姿勢を推定して用いる.画像品質・再構成品質の指標の他,SyncNetによる同期スコアで比較し,少ないエポックで優れた性能を達成している.

その他(なぜ通ったか?等)