#207
summarized by : Hirokatsu Kataoka
An Empirical Study of Training Self-Supervised Vision Transformers

どんな論文か?

Vision Transformers(ViT)の自己教師あり学習(SSL)に関する調査研究。
placeholder

新規性

新規手法については検討していないが、ViT+SSLに関する知見を共有している。その結果、ViTはCNNよりも学習安定性があることや、シンプル・高精度・スケーラビリティに優れたMoCoV3を提案した論文として位置づけられている。

結果

学習安定性のテクニック、その他構造の組み合わせ探索、MoCoV3の適用などにより、より少ない教師においても高精度なViTの学習に成功した。最終的には添付表に示すように、画像:ImageNet (1.28M images) / 教師:MoCoV3により学習されたViT-LargeによりImageNet-1kのtop-1 accuracyが84.1%を記録している。

その他(なぜ通ったか?等)

Abstractの冒頭が"This paper does not describe a novel method."にも関わらずICCVにオーラルとして採択されている。調査により新しい知見を共有している部分が大きいとみられる。