#192
summarized by : Masanori YANO
Fast Convergence of DETR With Spatially Modulated Co-Attention

どんな論文か?

Transformerを使用した物体検出で、訓練時に収束が遅いDETRの課題に対し、アテンションモジュールの変更で改良した手法。DETRでは適切なアテンションマップの学習に時間を要することが収束が遅い要因と仮定し、代替するモジュールを提案している。
placeholder

新規性

DETRのTransformerのデコーダに含まれるCo-Attention(Cross-Attention)に対し、バウンディングボックスの予測結果を反映できるように、オブジェクトの有無に伴いアテンションマップに強弱をかけるSMCAを提案した。

結果

バックボーンにResNet-50とResNet-101を使用し、COCOデータセットで評価を行い、DETRより訓練時の収束が早く、精度に関しても従来手法と同等以上の結果。同じくICCV 2021採択の手法であるTSP-FCOS及びTSP-RCNNとの比較も行い、大きいオブジェクトでは提案手法のSMCAの方が高い精度。

その他(なぜ通ったか?等)

収束を早くし、検出性能も高くなる結果を示したため通ったと考えられる。PyTorch実装( https://github.com/gaopengcuhk/SMCA-DETR )が公開されている。