Adaptive Focus for Efficient Video Recognition

#62

summarized by : 日坂　幸次

Yulin Wang, Zhaoxi Chen, Haojun Jiang, Shiji Song, Yizeng Han, Gao Huang

どんな論文か？

本論文では，計算効率の向上を目的として，ビデオ認識における空間的冗長性を検討する．動画像の各フレームにおいて最も情報量の多い領域は、通常、小さな画像パッチであり、フレーム間で滑らかに移動することが観察される。

新規性

そこで本研究では，パッチの定位問題を逐次的な決定タスクとしてモデル化し，強化学習に基づく効率的な空間適応型ビデオ認識手法（AdaFocus）を提案する．具体的には、まず、ビデオシーケンス全体を高速に処理するために、軽量のConvNetを採用し、その特徴をリカレントポリシーネットワークで使用して、最もタスクに関連する領域をローカライズします。

結果

ActivityNet, FCVID, MiniKineticsという5つのベンチマークデータセットを用いた大規模な実験。Something-Something V1&V2の5つのベンチマークデータを用いた大規模な実験により，我々の手法が競合するベースラインよりも大幅に効率的であることが実証された．

その他（なぜ通ったか？等）

https://github.com/blackfeather-wang/AdaFocus

このページで利用されている画像は論文から引用しています．