Scaling Vision Transformers

#134

summarized by : Sora Takashima （高島空良）

Xiaohua Zhai; Alexander Kolesnikov; Neil Houlsby; Lucas Beyer

どんな論文か？

自然言語タスクの文脈ではある程度判明している「Transformerの性能は、モデルサイズと事前学習データセットのサイズ、そして計算予算（計算量）に依存して再現なく高くなっていく」というスケーリング則が、画像分類タスクで事前学習させるVision Transformer（ViT）でも成立するかを網羅的なスケーリング実験により調査した。また、調査の過程でモデルと学習手法を改善し、性能向上を試みた。

新規性

モデルサイズ/データセットサイズ/計算量のスケーリング則三要素を網羅的に変えながらViTを検証した初の研究。 ViTのheadとbody部分でweight decayの強度を変更する手法や、クラストークンの適切な削除、適切なオプティマイザー、LRスケジューリングの使用、チューニングによって、ViTのメモリ使用量削減や学習効率向上に寄与した。

結果

ViTアーキテクチャとして最大となる約20億のパラメータを持つViT-G/14を新たに構築し、弱ラベル付き自然画像データセットとして最大となる約30億枚の画像を含むJFT-3Bで事前学習させて、ImageNet-1k分類で当時のSoTA（90.45%）に至り、スケーリング則がViTにおいても成立することを示した。また、独自の工夫を施した大規模ViTはfew-shot学習の性能も高いことを示した。

その他（なぜ通ったか？等）

本研究はTransformerではモダリティによらずスケーリング則が成立することを示唆する結果となっており、深層学習分野では言語タスクのみならず様々なモダリティにおいて「Transformerアーキテクチャと事前学習用データセットのスケーリング」による性能競争が激化する兆候が見える。また、スケーリングによる性能向上を成立させるために、モデルの省メモリ化や計算効率化が今後より重要になってきそうだ。

このページで利用されている画像は論文から引用しています．