- …
- …
#336
summarized by : Naoya Chiba
どんな論文か?
Few-shotでNeRFベースのTalking Head Synthesis(音声から話している顔画像シーケンスを合成)する手法の提案.各時刻での顔の変形を2D画像のリファレンスに対するワープとしてモデル化することで,15秒程度の動画のみから学習することができる.
新規性
NeRFをTalking Head Synthesisに適用・ワープによるモデル化によって効率よくデータを利用でき少数のデータから学習できるようにした点が新規.音声はDeepSpeechのRNNとAttentionで処理しておき,時系列の情報も持つ各時刻の特徴量に変換,各時刻での変形に対応した座標の特徴量を集約してNeRFのその座標でのConditionとする.
結果
AD-NeRFが収集したシーケンスで検証,AD-NeRFと同様にFace2Faceで頭の姿勢を推定して用いる.画像品質・再構成品質の指標の他,SyncNetによる同期スコアで比較し,少ないエポックで優れた性能を達成している.
その他(なぜ通ったか?等)
- …
- …