#5
summarized by : GOTO Keita
Large-Scale Weakly-Supervised Pre-Training for Video Action Recognition

どんな論文か?

動画行動認識のためのpre-trainingを行い、認識精度を向上させる。ハッシュタグや検索クエリをラベルとし、それを元にインターネット上から動画を収集してデータセットを作成する。最適なクラス数や動画の長さやモデルと精度の相関を調べている。
placeholder

新規性

アノテーションされていない動画を用いた弱教師あり学習によるpre-trainingを行なっている。

結果

Kinetics-400とSomething-somethingでSOTA。Kineticsでは他のpre-trainedなモデルよりも精度が向上。

その他(なぜ通ったか?等)

データセットの大きさやモデルのパラメータ数を変えた実験を何通りも行なっている。モデルを変更せずに、pre-trainingだけで精度が向上する。