#73
summarized by : Akihiro FUJII
Bottleneck Transformers for Visual Recognition

どんな論文か?

ResNetの最終数ブロックをSelf-Attentionを使った構造にすることにより、ハイパラ調整も含めた変更なしに精度向上ができるBoTNetを提案。最終層は特徴量マップが小さいので、Global Attentionを使えることがポイント。画像分類やInstance Segmentationで精度の向上を確認した。
placeholder

新規性

ResNetのボトルネック層の真ん中のCNNを、Multi-Head Self Attentionにする。最終の数に使うことでメモリ制約を少なくしながら、Global Attentionが使える。

結果

画像分類やセグメンテーションで、精度の向上を確認した。EfficientNetより1.64倍高速に動作する。

その他(なぜ通ったか?等)

深い部分をConvの代わりにSelf-Attentionを使っていくという思想は、Stand-Alone Self-Attention(https://arxiv.org/abs/1906.05909)とも共通している。