#237
summarized by : Hirokatsu Kataoka
Self-Slimmed Vision Transformer

どんな論文か?

Vision Transformer(ViT)の大幅な計算量削減を試みた論文。Token同士の比較を少なくすることで計算量削減を実現したSelf-slimmed Vision Transformer(SiT)を提案。
placeholder

新規性

SiTの中で、Token Slimming Module (TSM)を提案したことが新規性として挙げられる。識別に有効な特徴がない冗長部分は適切にマージしていくことで効率性を向上する。

結果

TSMを導入したSiTにより、添付図に示すようにベースラインであるDeiT(構造はViTと同じ)とImageNet-1kの精度劣化がゼロもしくは最小ながら、スループットを向上している。

その他(なぜ通ったか?等)

GitHub: https://github.com/Sense-X/SiT