Patch Slimming for Efficient Vision Transformers

#470

summarized by : Sora Takashima （高島空良）

Yehui Tang; Kai Han; Yunhe Wang; Chang Xu; Jianyuan Guo; Chao Xu; Dacheng Tao

どんな論文か？

Vision Transformer(ViT)の学習において、選択的に冗長な入力パッチを削除することによって、精度を落とすことなく計算量を削減して学習効率を高めたい。

新規性

ViTアーキテクチャにおける従来の計算量削減のアプローチは、基本的にチャネル次元の冗長性に着目したものであった。本研究では、入力パッチの情報冗長性に着目する点において新規性がある。また、与えられたモデルから冗長なパッチを最終層から第一層にかけてトップダウン方式で特定/除去する画期的な手法を新規に考案した。

結果

代表的な結果として、ImageNet分類タスクにおいて、提案手法がスタンダードなViT-TinyモデルのFLOPsを45%以上削減しつつも、top-1 test accを0.2%しか低下させないことを実験により示した。

その他（なぜ通ったか？等）

近年、Scaling lawに従ってTransformerモデルを大規模化させることによる精度改善が進む一方で、本研究のようなモデル計算量の改善を行う研究も非常に盛んに行われてきており、モデル大規模化に伴って計算効率化の重要性が高まっていると感じた。

このページで利用されている画像は論文から引用しています．