Hierarchical Cross-Modal Talking Face Generation With Dynamic Pixel-Wise Loss

#224

summarized by : Shunsuke NAKATSUKA

Lele Chen, Ross K. Maddox, Zhiyao Duan, Chenliang Xu

どんな論文か？

一枚の画像と音声信号から人間が話している顔の動画を生成するタスク．

新規性

画像と音声信号から音声に適したランドマークを生成するAudio Transformation Net (AT-Net)と生成されたランドマークと入力として与えられた画像から動画フレームを生成するVisual Generation Net (VG-Net)を導入．attention baseの差分LossやDiscriminatorを導入．

結果

GTX1080tiで34.53FPS達成．LRW，GRIDにおいてLMD，SSIM，PSNRを評価指標としてSoTA（LRWにおけるLMDにおいてはSoTAではない）

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．