- …
- …
#99
summarized by : y.inoue
どんな論文か?
物体検出のHeadには、「Scale」「Spatial」「Task」(「物体の大きさ」「空間的な場所」「bboxやcenterなどの標的」)の3つが重要であるが、これらを同時に取り扱っている。
新規性
Backboneからの特徴全てにAttentionをかけると計算コストが高いので、Scaleに着目したLevel-awareなAttention、(height x width)に着目したSpace-awareなAttention、Channel方向に着目したtask-awareなAttentionを別々にかけることで、これらの重要な要素を同時に扱っているところが新しい。
結果
様々な物体検出のモデルで1.2〜3.2%APを向上させることができた。EfficientDetやSpineNetの1/20の学習時間で、それよりも良い精度を出した。TransformerのBackboneでself-trainingと合わせてCOCOで60.6 APを達成。
その他(なぜ通ったか?等)
https://github.com/microsoft/DynamicHead
- …
- …