#470
summarized by : Sora Takashima (高島 空良)
Patch Slimming for Efficient Vision Transformers

どんな論文か?

Vision Transformer(ViT)の学習において、選択的に冗長な入力パッチを削除することによって、精度を落とすことなく計算量を削減して学習効率を高めたい。
placeholder

新規性

ViTアーキテクチャにおける従来の計算量削減のアプローチは、基本的にチャネル次元の冗長性に着目したものであった。本研究では、入力パッチの情報冗長性に着目する点において新規性がある。また、与えられたモデルから冗長なパッチを最終層から第一層にかけてトップダウン方式で特定/除去する画期的な手法を新規に考案した。

結果

代表的な結果として、ImageNet分類タスクにおいて、提案手法がスタンダードなViT-TinyモデルのFLOPsを45%以上削減しつつも、top-1 test accを0.2%しか低下させないことを実験により示した。

その他(なぜ通ったか?等)

近年、Scaling lawに従ってTransformerモデルを大規模化させることによる精度改善が進む一方で、本研究のようなモデル計算量の改善を行う研究も非常に盛んに行われてきており、モデル大規模化に伴って計算効率化の重要性が高まっていると感じた。