#16
summarized by : junk
EdgeViTs: Competing Light-Weight CNNs on Mobile Devices with Vision Transformers

どんな論文か?

Self-Attentionと畳み込みを組み合わせた、LGL(local-global-local )ボトルネックを導入したEdgeViTsは、リソース制限のあるモバイル端末で必要となる精度と効率性の両面評価で、初めて軽量CNNにで匹敵し、他のViTsに対して優位性を持ったモデルである。
placeholder

新規性

初めてモバイル向けのViTsの文脈で、EdgeViTsは精度とレイテンシー/GFLOPs/電力量というトレードオフの中で軽量CNNに匹敵し、他のモバイル向けのViTsに対して優位性を示す性能を持つモデル。また、評価指標にGFLOPsだけではなく、レイテンシや電力量などの直接的なパラメータも採用。

結果

代表的な軽量CNN(MobileNetv2 やEfficientNets )と競合することができ、モバイル向けViTsのstate-of-the-artであるMobileViTsに今回指標では明らかな性能差を得られた。

その他(なぜ通ったか?等)

https://github.com/saic-fi/edgevit