G3AN: Disentangling Appearance and Motion for Video Generation

#680

summarized by : Rei Tamaru

Yaohui Wang, Piotr Bilinski, Francois Bremond, Antitza Dantcheva

どんな論文か？

従来の動画生成で課題とされていた、生成した動作の不安定さ、生成動画内で人間の容姿が保持できない、spatio-temporalな要素をモデリング出来ていない、という３つの問題をdisentangledなモデルを用いることで解決するspatio-temporal generative modelのG3ANを提案

新規性

静止画のdisentangledな特徴は近年研究されているが、動画についてはまだ少ない。その中でもMoCoGANがフレームをmotionとcontentの要素に分ける動画生成を行っているが不完全であった。この研究ではGANをmain、spatial、streamの3つの流れに分けて学習させ、うまくフレームの要素を生成している。

結果

FIDとISでは従来の研究よりも非常に良い結果を生成できた。人間による評価において、正解の動画と比べた場合、1/4がG3ANが正解であると選択し、従来の研究と比較した場合、9割程度がこの研究が本物に近いと選択できている。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．