FrameExit: Conditional Early Exiting for Efficient Video Recognition

#236

summarized by : Chihiro Nakatani

Amir Ghodrati, Babak Ehteshami Bejnordi, Amirhossein Habibian

どんな論文か？

効率的な動画認識のための early exiting を提案した。動画認識の計算コスト削減のためには、従来研究では動画内の重要なフレームのみに着目するものが多い。提案手法では early exiting 機構を使い、動画の難易度に合わせた効率的な動画認識を実現した。 early exiting ... 単純な動画では少ないフレーム数で、複雑な動画では多くのフレーム数を使う機構。

新規性

分類問題の特徴量選択（簡単な画像には浅い層の特徴量、難しい画像には深い層の特徴量）のために提案された early exiting を、動画認識における時系列情報（簡単な動画では少ないフレーム数、難しい動画では多くのフレーム数）に拡張したこと。 (e.g., 簡単な動画なら最初の数フレームのみを、難しい動画なら最初から 20 フレームを使う)

結果

提案手法を action recognition, holistic video understanding で実験した。従来手法と比べて精度が向上し、一つの動画の処理にかかる時間も 2-4倍程度高速化されるのが確認された。なお、上記の実験は ResNet、EfficientNet、X3D-S を認識ネットワークとして行われた。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．