#961
summarized by : Rei Tamaru
Exploring Spatial-Temporal Multi-Frequency Analysis for High-Fidelity and Temporal-Consistency Video Prediction

どんな論文か?

動画予測分野において、Human Visual System(HVS)にならって異なる周波数帯の動きを離散ウェーブレット変換によって捉えて組み合わせることで、従来の課題を解決した現実により忠実な動画を生成できた研究。
placeholder

新規性

従来の課題であったimage distortionとtemporal inconsistencyに対して、画像を異なる方向を持つ3つの高周波サブバンドに分解して、空間的情報を得て、かつ各動画フレームを複数の周波数を持つ異等方性のサブバンドに分解することで時間的情報に分解し、それら2つを組み合わせることで従来の手法よりも忠実な動画に動画を予測することができた。

結果

急な動きが生じると正しく生成できなくなるが、4つのデータセットにおいてほぼSoTAとなる結果を出し、デモ動画でも、正解動画と遜色のない動画を生成することに成功した。

その他(なぜ通ったか?等)