#243
summarized by : 綱島秀樹
Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer

どんな論文か?

動画生成において、キレイな動画生成ではなく長期的に時空間一貫性のある動画生成に焦点を当てた論文。 時間発展による誤差の蓄積は、飛び飛びのフレームを生成するVQGANと、補完をするinterpolation transformerによって解決する。 生成品質自体も動画生成のSOTAとコンパラ。
placeholder

新規性

・1024フレームという長期の動画生成において、ほぼ品質劣化無しで生成可能な点。 ・飛び飛びのフレームを生成して、中間フレームを補完するタスク難易度分割をする新しいアーキテクチャを提案した点

結果

・既存の動画生成のベンチマークでもSOTAとコンパラ(Tab. 1) ・長期生成になってもほぼ性能劣化がない(Fig. 5) ・直近15フレームと、ある時刻から15フレーム分でのクラス分類での評価のCCSとICSにおいて、両者でSOTA(どれだけ生成クラスを保ててるか)(Fig. 6)

その他(なぜ通ったか?等)

長期の生成において、圧倒的にぶっちぎった性能を出している点。 project page:https://songweige.github.io/projects/tats