#21
summarized by : SY
CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification

どんな論文か?

ViTでは画像パッチを同じサイズに区切っているのに対して,大小異なるサイズのパッチに区切ることで異なるスケールの情報を取り扱うことができるCrossViTを提案した.
placeholder

新規性

入力画像を大小異なる2種類のパッチに分割し,それぞれのサイズごとにTransformerのEncoderに入力する.その後,異なるサイズのパッチとのattentionを計算するcross-attentionを求め,最後に2つのサイズから得られた特徴を結合する.

結果

他のTransformerベースの手法よりもImagenet1Kにおけるtop-1 accuracyで高い性能を確認.DeiTやViTと比較して少ないFLOP数で性能向上が可能.

その他(なぜ通ったか?等)

https://github.com/IBM/CrossViT