Self-Slimmed Vision Transformer

#237

summarized by : Hirokatsu Kataoka

Zhuofan Zong; Kunchang Li; Guanglu Song; Yali Wang; Yu Qiao; Biao Leng; Yu Liu

Vision Transformer（ViT）の大幅な計算量削減を試みた論文。Token同士の比較を少なくすることで計算量削減を実現したSelf-slimmed Vision Transformer（SiT）を提案。

SiTの中で、Token Slimming Module (TSM)を提案したことが新規性として挙げられる。識別に有効な特徴がない冗長部分は適切にマージしていくことで効率性を向上する。

TSMを導入したSiTにより、添付図に示すようにベースラインであるDeiT（構造はViTと同じ）とImageNet-1kの精度劣化がゼロもしくは最小ながら、スループットを向上している。

GitHub: https://github.com/Sense-X/SiT

このページで利用されている画像は論文から引用しています．