Learning Semantic-Aware Dynamics for Video Prediction

#548

summarized by : Shoma Iwai

Xinzhu Bei, Yanchao Yang, Stefano Soatto

どんな論文か？

動画の過去の数フレームから未来のフレームを予測するタスク．セマンティックマップを明示的に利用することで，意味的にも視覚的にも一貫性のあるフレーム予測を実現した．セマンティックマップを使って過去のオプティカルフローをクラスごとに分割し，RNNで未来のオプティカルフローとセマンティックマップを予測する．未来のセマンティックマップを利用することで，ディスオクルージョン部分を自然に生成できる．

新規性

- セマンティックマップを利用してクラスごとに予測を行うことで，予測がシンプルかつ簡単になる - セマンティックマップを利用したディスオクルージョンの検出方法を提案

結果

- Cityscapes, KITTIデータセットで実験 - 1~5フレーム先の予測では，MS-SSIM，PSNR，LPIPS等で既存手法を上回った - モデルが予測した未来のセマンティックマップの精度も検証し，9フレーム先の予測でも高い精度であることを確認した

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．