- …
- …
#21
summarized by : SY
新規性
入力画像を大小異なる2種類のパッチに分割し,それぞれのサイズごとにTransformerのEncoderに入力する.その後,異なるサイズのパッチとのattentionを計算するcross-attentionを求め,最後に2つのサイズから得られた特徴を結合する.
結果
他のTransformerベースの手法よりもImagenet1Kにおけるtop-1 accuracyで高い性能を確認.DeiTやViTと比較して少ないFLOP数で性能向上が可能.
その他(なぜ通ったか?等)
https://github.com/IBM/CrossViT
- …
- …