- …
- …
#237
summarized by : Hirokatsu Kataoka
どんな論文か?
Vision Transformer(ViT)の大幅な計算量削減を試みた論文。Token同士の比較を少なくすることで計算量削減を実現したSelf-slimmed Vision Transformer(SiT)を提案。
新規性
SiTの中で、Token Slimming Module (TSM)を提案したことが新規性として挙げられる。識別に有効な特徴がない冗長部分は適切にマージしていくことで効率性を向上する。
結果
TSMを導入したSiTにより、添付図に示すようにベースラインであるDeiT(構造はViTと同じ)とImageNet-1kの精度劣化がゼロもしくは最小ながら、スループットを向上している。
その他(なぜ通ったか?等)
GitHub: https://github.com/Sense-X/SiT
- …
- …