- …
- …
#224
summarized by : Shunsuke NAKATSUKA
新規性
画像と音声信号から音声に適したランドマークを生成するAudio Transformation Net (AT-Net)と生成されたランドマークと入力として与えられた画像から動画フレームを生成するVisual Generation Net (VG-Net)を導入.attention baseの差分LossやDiscriminatorを導入.
結果
GTX1080tiで34.53FPS達成.LRW,GRIDにおいてLMD,SSIM,PSNRを評価指標としてSoTA(LRWにおけるLMDにおいてはSoTAではない)
その他(なぜ通ったか?等)
- …
- …