Large-Scale Weakly-Supervised Pre-Training for Video Action Recognition

summarized by : GOTO Keita

Deepti Ghadiyaram, Du Tran, Dhruv Mahajan

動画行動認識のためのpre-trainingを行い、認識精度を向上させる。ハッシュタグや検索クエリをラベルとし、それを元にインターネット上から動画を収集してデータセットを作成する。最適なクラス数や動画の長さやモデルと精度の相関を調べている。

アノテーションされていない動画を用いた弱教師あり学習によるpre-trainingを行なっている。

Kinetics-400とSomething-somethingでSOTA。Kineticsでは他のpre-trainedなモデルよりも精度が向上。

データセットの大きさやモデルのパラメータ数を変えた実験を何通りも行なっている。モデルを変更せずに、pre-trainingだけで精度が向上する。

このページで利用されている画像は論文から引用しています．