#224
summarized by : Shunsuke NAKATSUKA
Hierarchical Cross-Modal Talking Face Generation With Dynamic Pixel-Wise Loss

どんな論文か?

一枚の画像と音声信号から人間が話している顔の動画を生成するタスク.
placeholder

新規性

画像と音声信号から音声に適したランドマークを生成するAudio Transformation Net (AT-Net)と生成されたランドマークと入力として与えられた画像から動画フレームを生成するVisual Generation Net (VG-Net)を導入.attention baseの差分LossやDiscriminatorを導入.

結果

GTX1080tiで34.53FPS達成.LRW,GRIDにおいてLMD,SSIM,PSNRを評価指標としてSoTA(LRWにおけるLMDにおいてはSoTAではない)

その他(なぜ通ったか?等)