#99
summarized by : y.inoue
Dynamic Head: Unifying Object Detection Heads With Attentions

どんな論文か?

物体検出のHeadには、「Scale」「Spatial」「Task」(「物体の大きさ」「空間的な場所」「bboxやcenterなどの標的」)の3つが重要であるが、これらを同時に取り扱っている。
placeholder

新規性

Backboneからの特徴全てにAttentionをかけると計算コストが高いので、Scaleに着目したLevel-awareなAttention、(height x width)に着目したSpace-awareなAttention、Channel方向に着目したtask-awareなAttentionを別々にかけることで、これらの重要な要素を同時に扱っているところが新しい。

結果

様々な物体検出のモデルで1.2〜3.2%APを向上させることができた。EfficientDetやSpineNetの1/20の学習時間で、それよりも良い精度を出した。TransformerのBackboneでself-trainingと合わせてCOCOで60.6 APを達成。

その他(なぜ通ったか?等)

https://github.com/microsoft/DynamicHead