#364
summarized by : Akihiro Yoshida
Efficient Video Classification Using Fewer Frames

どんな論文か?

動画の分類タスクを少ないフレーム数を用いて行う手法の提案。Teacherモデル(全てのフレームを用いる)を学習した後に、Studentモデルは①動画から抽出した特徴のTeacherとの差②予測ラベルのTeacherとの差③予測ラベルと真のラベルの差の3つのロス関数を用いて学習。Studentモデルの学習には動画全体のうちj枚ごとのフレームの画像を用いる。
placeholder

新規性

蒸留をベースに、動画の分類タスクを少ないフレーム数を用いて行う手法の提案

結果

YouTube-8M datasetを使用し、提案手法と提案手法のstudentモデルが学習に用いるフレーム数を別の手法(ランダム、最初のkフレームなど)で取り出したモデル達と比較、全データを用いたモデルではGAPで0.811のところ提案手法では最大0.806と近い精度を達成、また計算時間の30%の削減に成功。

その他(なぜ通ったか?等)