Deep Learning in Latent Space for Video Prediction and Compression

#577

summarized by : Shoma Iwai

Bowen Liu, Yu Chen, Shiyu Liu, Hun-Seok Kim

どんな論文か？

フレーム予測を使った動画圧縮手法．最初に動画の各フレームを潜在変数に変換する．ConvLSTMを使い，過去のフレームの潜在変数から未来のフレームの潜在変数を予測する．予測した潜在変数と真の潜在変数の差分を量子化し，エントロピー符号化することで圧縮を行う．デコード時は学習済みGANを使って潜在変数から各フレームを復元する．予測した潜在変数と実際の潜在変数の誤差の大きさを利用して異常検知にも応用可能．

新規性

- 既存手法と異なり，潜在空間上で処理が可能な動画圧縮手法である - 明示的な動き補償等を行わず，シンプルな構成にした - 予測した潜在変数の誤差を評価することで異常検知にも応用できる

結果

- UVG,VTLデータセットで実験し，PSNRやMS-SSIMによるレート歪みの評価でSOTAを達成した - シーン間の変化が比較的少ない監視カメラ映像のデータセットを使用し，異常検知の性能を評価したところ，いくつかのデータセットで既存手法を上回った

その他（なぜ通ったか？等）

github: https://github.com/BowenL0218/Video_Compression

このページで利用されている画像は論文から引用しています．