#229
summarized by : Shinnosuke Matsufusa
Adaptive Token Sampling for Efficient Vision Transformers

どんな論文か?

Vision Transformer は、多くのタスクで大活躍する一方、計算量が多い。ViTの計算量は、内部で扱うTokenの数で計算量を削減できるものの、すべての画像において一意の最適な値は存在しない。本論文では、微分可能かつパラメータフリーの、 Adaptive Token Sampler を提案。既存の学習済みViTにそのまま付け加えて使用できる上、導入した上で学習を行うことも可能。
placeholder

新規性

Vision Transformer のトークン数どうすればよいか問題を、ネットワークアーキテクチャの変更により解決している。

結果

現在の ImageNet での SOTA である DeiT-S に本手法を導入したところ、精度をほぼ保ちながら、計算コストを37%削減。

その他(なぜ通ったか?等)

通るべくして通った論文という印象。仕組み上、細かなチューニングが必要というわけでもないし、ViTアーキテクチャであれば容易に導入可能で、高い確度で計算量を削減できる。論文中の Figure 3 も直感的で、非常に効果がわかりやすい。 NLP 分野でも、対応する研究があるのか気になった。