- …
- …
#209
summarized by : Hiromasa Sakata
どんな論文か?
動画認識において, 検出したい物体もしくはシーンによって, 重要なフレーム数, 種類は異なる. 強化学習(Policy Gradient)を使って適切なフレームを推定するLSTMベースのモデル AdaFrameを提案している. 少ないフレームをから学習して既存手法と同等精度を出せることを示した.
新規性
強化学習の手法を用いて, 既存手法よりも少ないフレームから同等の精度を出せることを示した. また, 通常のLSTMでは空間軸を考慮出来ないため, 空間軸, 時間軸両方向にダウンサンプリングしたフレーム情報をGlobal Memoryとして保持している.
結果
FCVID, ACTIVITYNET において既存手法が10フレームを使って出した精度と同程度の精度をそれぞれ8.21, 8.65フレームを使って出した.
その他(なぜ通ったか?等)
- …
- …