#236
summarized by : Chihiro Nakatani
FrameExit: Conditional Early Exiting for Efficient Video Recognition

どんな論文か?

効率的な動画認識のための early exiting を提案した。 動画認識の計算コスト削減のためには、従来研究では動画内の重要なフレームのみに着目するものが多い。提案手法では early exiting 機構を使い、動画の難易度に合わせた効率的な動画認識を実現した。 early exiting ... 単純な動画では少ないフレーム数で、複雑な動画では多くのフレーム数を使う機構。
placeholder

新規性

分類問題の特徴量選択(簡単な画像には浅い層の特徴量、難しい画像には深い層の特徴量)のために提案された early exiting を、動画認識における時系列情報(簡単な動画では少ないフレーム数、難しい動画では多くのフレーム数)に拡張したこと。 (e.g., 簡単な動画なら最初の数フレームのみを、難しい動画なら最初から 20 フレームを使う)

結果

提案手法を action recognition, holistic video understanding で実験した。 従来手法と比べて精度が向上し、一つの動画の処理にかかる時間も 2-4倍程度高速化されるのが確認された。 なお、上記の実験は ResNet、EfficientNet、X3D-S を認識ネットワークとして行われた。

その他(なぜ通ったか?等)