#680
summarized by : Rei Tamaru
G3AN: Disentangling Appearance and Motion for Video Generation

どんな論文か?

従来の動画生成で課題とされていた、生成した動作の不安定さ、生成動画内で人間の容姿が保持できない、spatio-temporalな要素をモデリング出来ていない、という3つの問題をdisentangledなモデルを用いることで解決するspatio-temporal generative modelのG3ANを提案
placeholder

新規性

静止画のdisentangledな特徴は近年研究されているが、動画についてはまだ少ない。その中でもMoCoGANがフレームをmotionとcontentの要素に分ける動画生成を行っているが不完全であった。この研究ではGANをmain、spatial、streamの3つの流れに分けて学習させ、うまくフレームの要素を生成している。

結果

FIDとISでは従来の研究よりも非常に良い結果を生成できた。人間による評価において、正解の動画と比べた場合、1/4がG3ANが正解であると選択し、従来の研究と比較した場合、9割程度がこの研究が本物に近いと選択できている。

その他(なぜ通ったか?等)