#251
summarized by : 綱島秀樹
Layered Controllable Video Generation

どんな論文か?

ユーザがaction vectorなどと比べてより直感的なコントロール可能な動画生成を行うために、教師なしセグメンテーションとVQGANを合わせた手法を提案した
placeholder

新規性

よりユーザ入力のマスクと合っている動画の生成を可能にした点

結果

・ロボットアームでのマニピュレーションのBAIRデータセットと、テニス動画のTennis Datasetにおいて、ちゃんとマスクを指定した正しい位置の動画を生成可能 生成品質もBAIRではSOTAとコンパラ、Tennis DatasetではSOTA ・2つのマスクを指定して訓練データにない2つのオブジェクトの生成可能(Tennis Dataset)

その他(なぜ通ったか?等)

かなりユーザ入力のマスクに対して合っている出力を出せる点がウケたのではないか。