#314
summarized by : Hiroki Nakamura
Leverage Your Local and Global Representations: A New Self-Supervised Learning Strategy

どんな論文か?

ある画像から得られた複数の View の特徴量同士の Similarity を最大化することで、特徴量を学習する自己教師学習の新たな学習手法の提案。 既存の手法では、ある画像を Crop して View を得る際に Crop された画像同士が大きく異なる場合でも同じ意味を持つ画像として学習するため、学習が困難な問題がある。 この論文では、2種類の View と独自の学習手法を用いて上記問題を解決。
placeholder

新規性

View の生成の際にクロップのスケールが異なる Global, Local の2種類を用い、それらの View 間の新たな Similarity を用いた学習手法を提案したこと。

結果

STL, ImageNet-100 で Linear Classifier, KNN でクラス分類を実施し、Top1 accuracy で評価。既存手法と比較して精度の向上を確認。 また、他データセットへの転移学習や他の Vision task でも有効であることを確認した。

その他(なぜ通ったか?等)

同じ画像の Local な view 間の Similarity の計算の際に、ベースラインとして他の画像の Local な view の Similarity を用意した点。 また、その有効性を ablation study や Discussion で検証した点。