#209
summarized by : Hiromasa Sakata
AdaFrame: Adaptive Frame Selection for Fast Video Recognition

どんな論文か?

動画認識において, 検出したい物体もしくはシーンによって, 重要なフレーム数, 種類は異なる. 強化学習(Policy Gradient)を使って適切なフレームを推定するLSTMベースのモデル AdaFrameを提案している. 少ないフレームをから学習して既存手法と同等精度を出せることを示した.
placeholder

新規性

強化学習の手法を用いて, 既存手法よりも少ないフレームから同等の精度を出せることを示した. また, 通常のLSTMでは空間軸を考慮出来ないため, 空間軸, 時間軸両方向にダウンサンプリングしたフレーム情報をGlobal Memoryとして保持している.

結果

FCVID, ACTIVITYNET において既存手法が10フレームを使って出した精度と同程度の精度をそれぞれ8.21, 8.65フレームを使って出した.

その他(なぜ通ったか?等)