DeiT III: Revenge of the ViT

#165

summarized by : Hirokatsu Kataoka

Hugo Touvron; Matthieu Cord; Hervé Jégou

どんな論文か？

Vision Transformer（ViT）の学習方法を工夫することで（自己教師あり学習を用いない）教師あり学習のみでベースラインを大幅に向上することに成功した、という報告。ImageNet classificationやADE-20k semantic segmentationに対して効果を検証している。

新規性

ViTの精度を向上させる方法は次の通り：Binary Cross Entropy, Stochastic Depth, LayerScale, 3-Augment (Grayscale, Solarization, GaussianBlur), Simple Random Cropping, Lower Resolution

結果

ImageNet classificationやADE-20k semantic segmentationに対して効果を検証、シンプルなViTと学習の見直しにより、従来の強力な自己教師あり学習による事前学習手法（MAE/BEiT）を用いずともそれらと同等の精度まで到達することを明らかにした。また、8GPUsでも比較的サイズの大きなViT-に対しても学習できるようになっている。

その他（なぜ通ったか？等）

ViTに関する分野の関心は非常に高い状態にある。著者らはViTのより良い学習方法を探り、実際に自己教師による事前学習がなくとも良好な精度を叩き出すことを明らかにした。

このページで利用されている画像は論文から引用しています．