- …
- …
#680
summarized by : Rei Tamaru
どんな論文か?
従来の動画生成で課題とされていた、生成した動作の不安定さ、生成動画内で人間の容姿が保持できない、spatio-temporalな要素をモデリング出来ていない、という3つの問題をdisentangledなモデルを用いることで解決するspatio-temporal generative modelのG3ANを提案
新規性
静止画のdisentangledな特徴は近年研究されているが、動画についてはまだ少ない。その中でもMoCoGANがフレームをmotionとcontentの要素に分ける動画生成を行っているが不完全であった。この研究ではGANをmain、spatial、streamの3つの流れに分けて学習させ、うまくフレームの要素を生成している。
結果
FIDとISでは従来の研究よりも非常に良い結果を生成できた。人間による評価において、正解の動画と比べた場合、1/4がG3ANが正解であると選択し、従来の研究と比較した場合、9割程度がこの研究が本物に近いと選択できている。
その他(なぜ通ったか?等)
- …
- …