#365
summarized by : Seito Kasai
End-to-End Learning of Visual Representations From Uncurated Instructional Videos

どんな論文か?

HowTo100Mデータセットを活用し、アノテーションコストなしに自己教師学習を用いて高性能の動画表現学習を行う
placeholder

新規性

単一のビデオに対して複数の候補キャプションがある場合にも対応し、アノテーションノイズにも対応できる MIL-NCE という目的関数を提案。

結果

Action segmentation / localization / recognition / zero-shot text-video retrieval 全てで State-of-the-artを達成。

その他(なぜ通ったか?等)

手法はシンプルだがデータセットが非常にリッチであり精度も高い。論文の比較しているポイントが非常にうまい(強い論文の強い結果には但書を入れていて、自分たちの手法が比較できないことを示している)