#427
summarized by : Masanori YANO
SimVP: Simpler Yet Better Video Prediction

どんな論文か?

動画のフレーム予測で、LSTMなどのRNNやVision Transformer(ViT)を使用せず、全てCNNのシンプルなネットワーク構造で実現した手法。
placeholder

新規性

2次元の畳み込みだけ使用し、損失関数もMSEだけで動画のフレーム予測を行うSimVPを提案した。EncoderとDecoderにはグループ正規化とLeaky ReLUを取り入れ、中間のTranslatorはグループ化畳み込みを並列に行うInceptionモジュールを繰り返すネットワーク構造としている。

結果

Moving MNISTやKHTなど5種類のデータセットで精度の評価を行い、従来手法を上回る結果。ネットワーク構造に関するAblation Studyも実施している。

その他(なぜ通ったか?等)

シンプルなアプローチで、予測性能も高いため通ったと考えられる。PyTorch実装( https://github.com/gaozhangyang/SimVP-Simpler-yet-Better-Video-Prediction )が公開されている。