- …
- …
              #224
            
              summarized by : Shunsuke NAKATSUKA
            
新規性
画像と音声信号から音声に適したランドマークを生成するAudio Transformation Net (AT-Net)と生成されたランドマークと入力として与えられた画像から動画フレームを生成するVisual Generation Net (VG-Net)を導入.attention baseの差分LossやDiscriminatorを導入.
 結果
GTX1080tiで34.53FPS達成.LRW,GRIDにおいてLMD,SSIM,PSNRを評価指標としてSoTA(LRWにおけるLMDにおいてはSoTAではない)
 その他(なぜ通ったか?等)
- …
- …