Three Things Everyone Should Know about Vision Transformers

#152

summarized by : Anonymous

Hugo Touvron; Matthieu Cord; Alaaeldin El-Nouby; Jakob Verbeek; Hervé Jégou

どんな論文か？

Vision Transformerについて１．残差レイヤの並列化によるレイテンシ削減と最適化の容易化２．アテンションレイヤのみのファインチューニングによる学習時の最大メモリ使用量の削減とタスク間の重み共有の実現３．パッチ集約とMLPを分離し，パッチ間の通信を禁止したhierarchical MLP stemの導入を提案し，ImageNet-1kとImageNet-v2で評価した．

新規性

ViTのデザインや訓練方法の最適化に関する知見として１．残差レイヤの並列化によるレイテンシ削減は最適化が容易となり，精度も向上した．２．アテンションレイヤのみのファインチューニングによって最大メモリ使用量を削減した．３．畳み込みによる前処理とマスクベースの自己教師あり学習を組み合わせる方法は有効ではなく，提案手法により自己教師あり学習とパッチ前処理を効果的に利用できることを示した．

結果

１．残差レイヤの並列化によってバッチサイズの小さいときは約40%スループットが向上した．２．パラメータ数を66%削減し，学習時のメモリ使用量を10%削減，10％の学習高速化を達成した．３．提案手法であるhMLPを用いることで，top 1 精度において +0.3/+0.4の改善を達成した．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．