#416
summarized by : Hiroki Ohashi
Self-Supervised Learning of Video-Induced Visual Invariances

どんな論文か?

ビデオデータから画像レベルの良い表現を自己教師付き学習で獲得する手法Video-Induced Visual Invariances (VIVI)を提案。
placeholder

新規性

画像のための表現学習として、ビデオデータを使用し、frame/shot(何フレームかの塊)/videoという3段階の階層的構造に着目した学習方法を提案している点。frameは色やコントラストの変化に、shotはオブジェクトの姿勢変化や照明条件の変化に、videoはシーンごとの意味的な関係性の変化に、それぞれ頑健になるように学習をする。

結果

獲得された特徴表現の良さを比較するための19種類のタスクが定義されたVisual Task Adaptation Benchmark (VTAB) version1において、ImageNetの全データを用いてpretrainしたモデルを10%のラベル付きデータのみを使って0.8ポイント上回る性能を達成、また全データを使った際にはSoTAを3.7ポイント上回る性能を達成。

その他(なぜ通ったか?等)

画像の表現学習に、ビデオデータにおける階層性を利用するという新規の発想のもと、それをうまく定式化し、幅広い実験にて有効性を実証しているため。定式化自体は既存の手法を組み合わせた比較的シンプルなものであるが、実験が非常に充実している。