#188
summarized by : Shuhei M Yoshida
A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning

どんな論文か?

動画認識向けの教師なし特徴表現学習。静止画で用いられている教師なし表現学習におけるデータ拡張の代わりに時間変化を用いることの有効性を検証する。
placeholder

新規性

静止画向けの対照学習では一つの画像からデータ拡張によって正データを生成した。これに対して、データ拡張に加えて、一つの動画の異なる時刻から取ってきたクリップを正データを生成する手法を提案。その有効性を実験的に検証。

結果

画像で用いられた4つの教師なし事前学習手法、3つの事前学習用動画データセット、6つの下流タスク(動画分類と行動検知)で効果を検証。従来の教師なし事前学習に対して大幅に下流タスクの精度を改善した。

その他(なぜ通ったか?等)

Ablation studyがかなり充実しており、勉強になる。 気になるのは教師あり事前学習に対してかなり負けている点。単純な動画分類を下流タスクとした時に、静止画と何が違ってここまで差がついているのか気になるところ。