#152
summarized by : Anonymous
Three Things Everyone Should Know about Vision Transformers

どんな論文か?

Vision Transformerについて 1.残差レイヤの並列化によるレイテンシ削減と最適化の容易化 2.アテンションレイヤのみのファインチューニングによる学習時の最大メモリ使用量の削減とタスク間の重み共有の実現 3.パッチ集約とMLPを分離し,パッチ間の通信を禁止したhierarchical MLP stemの導入 を提案し,ImageNet-1kとImageNet-v2で評価した.
placeholder

新規性

ViTのデザインや訓練方法の最適化に関する知見として 1.残差レイヤの並列化によるレイテンシ削減は最適化が容易となり,精度も向上した. 2.アテンションレイヤのみのファインチューニングによって最大メモリ使用量を削減した. 3.畳み込みによる前処理とマスクベースの自己教師あり学習を組み合わせる方法は有効ではなく,提案手法により自己教師あり学習とパッチ前処理を効果的に利用できることを示した.

結果

1.残差レイヤの並列化によってバッチサイズの小さいときは約40%スループットが向上した. 2.パラメータ数を66%削減し,学習時のメモリ使用量を10%削減,10%の学習高速化を達成した. 3.提案手法であるhMLPを用いることで,top 1 精度において +0.3/+0.4の改善を達成した.

その他(なぜ通ったか?等)