Bottleneck Transformers for Visual Recognition

#73

summarized by : Akihiro FUJII

Aravind Srinivas, Tsung-Yi Lin, Niki Parmar, Jonathon Shlens, Pieter Abbeel, Ashish Vaswani

どんな論文か？

ResNetの最終数ブロックをSelf-Attentionを使った構造にすることにより、ハイパラ調整も含めた変更なしに精度向上ができるBoTNetを提案。最終層は特徴量マップが小さいので、Global Attentionを使えることがポイント。画像分類やInstance Segmentationで精度の向上を確認した。

新規性

ResNetのボトルネック層の真ん中のCNNを、Multi-Head Self Attentionにする。最終の数に使うことでメモリ制約を少なくしながら、Global Attentionが使える。

結果

画像分類やセグメンテーションで、精度の向上を確認した。EfficientNetより1.64倍高速に動作する。

その他（なぜ通ったか？等）

深い部分をConvの代わりにSelf-Attentionを使っていくという思想は、Stand-Alone Self-Attention(https://arxiv.org/abs/1906.05909)とも共通している。

このページで利用されている画像は論文から引用しています．