StyleGAN-V: A Continuous Video Generator With the Price, Image Quality and Perks of StyleGAN2

#189

summarized by : Anonymous

Ivan Skorokhodov; Sergey Tulyakov; Mohamed Elhoseiny

どんな論文か？

動きは時間的に連続にも関わらず多くの動画生成モデルは離散的に扱っていた.本論文ではposition emmbedingを工夫した滑らかな運動表現の獲得、１クリップあたり2フレーム程度の少ないフレーム数での学習、conv2dを用いた冗長性のない識別器を用いるといった工夫で時間的に連続な動画生成を可能にした.

新規性

モデルはStyleGAN2をベースとしているが中間潜在変数へ変形するcontent codeと複数フレームから得られる運動に関する特徴量を用いた時間連続なmotion codeを入力としている.識別器では複数のフレームからそれぞれ特徴量を出力しそれらをconcatして最終的な出力を得ている.

結果

著者らの提案手法は複数のデータセットで既存手法のFVDスコアを上回った.加えて著者らのモデルは初めて1024x1024の解像度の動画を直接学習することに成功し、GPU-daysもStyleGAN2より10%ほど悪いという結果で学習効率も高いことが示されている.

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．