#264
summarized by : Hiroaki Aizawa
Revisiting Self-Supervised Visual Representation Learning

どんな論文か?

self-supervised learningにおいて,unlabeled dataからhigh-levelな画像表現を獲得するために様々なpretext taskが開発されてきたが,CNNの構造などの側面については十分に考察されていなかった.この研究では,rotaionやjgsawのような代表的なpretext taskを選定し,CNNの構造と学習される視覚表現の関係を大規模に調査した.
placeholder

新規性

self-supervised learningにおける大規模調査を行い,full-supervised settingにおけるCNN構造のノウハウはself-supervised learningにおいて必ずしも一致しないこと,そして,AlexNetとは対象的に,skip-connectionやフィルタ数は学習される視覚表現の質を改善することなどが明らかになったこと.

結果

実験では,ImageNetとPlaces205を用いて,代表的なself-supervised learningの手法(Rotation, Exemplar, Jigsawなど)を様々なCNN(AlexNet, ResNet, VGG, RevNet)で評価.学習された視覚表現の品質は,使用されたCNNのネットワーク構造に大きく依存することがわかった.

その他(なぜ通ったか?等)