#198
summarized by : Kengo Ino
No Frame Left Behind: Full Video Action Recognition

どんな論文か?

動画での行動認識では、学習時の計算量の問題(各フレームに対して、各activation,勾配をストアする必要がある)から、学習するフレームをサブサンプリングすることが一般的である。しかし、長時間にわたる行動を認識するには、サブサンプリングは重要なフレームを見逃す可能性があり、精度低下につながる。そこで本研究では全フレームを学習対象としながらも、計算量を抑えて、学習を行う方法を提案している。
placeholder

新規性

動画データの連続するフレームは似ている、また、似ているフレームは似たactivationを持つ、という仮説から、ReLUを活性化関数とした時、学習時の全フレームに対する勾配を、全フレームのactivationを用いて近似することで、必要なメモリ量を削減した。また、各フレーム間のactivationの符号によるフレームのクラスタリングを行うことで、計算量を削減しながらも近似精度を高めることに成功した

結果

複数のデータセットに対して、提案手法で学習したモデルは、サブサンプリングを用いて学習したモデルよりも高い精度を達成した。また、サブサンプリングを用いずに全フレームでの学習を行なった場合よりも、必要なメモリ量を大きく削減した。 データセットによって精度の改善幅は異なり、長時間の行動認識タスクでは大きく精度が向上したのに対し、少ないフレーム数に必要な情報が含まれる場合は精度は大きく改善しなかった。

その他(なぜ通ったか?等)

動画内の行動認識において、現在広く存在する課題に対する手法の提案ということで、インパクトの大きい研究ではないかと感じました。