#194
summarized by : Masanori YANO
Conditional DETR for Fast Training Convergence

どんな論文か?

Transformerを使用した物体検出で、訓練時に収束が遅いDETRの課題に対し、アテンションの計算にオブジェクトの位置の推定結果が反映されるように改良した手法。DETRのQueryに画像のオブジェクトの情報が含まれないことが収束が遅い要因と仮定し、空間的な情報を反映する機構を提案している。
placeholder

新規性

DETRのTransformerのデコーダに含まれるCross-AttentionのQueryに、オブジェクトの位置の推定結果が埋め込まれる機構を追加し、またオブジェクトの種類と位置にかかる内積計算を分離したConditional DETRを提案した。

結果

バックボーンにResNet-50とResNet-101を使用し、COCOデータセットで評価を行い、DETRより訓練時の収束が早く、精度に関してもDETRを上回る結果。同じくICCV 2021採択の手法であるTSP-FCOS及びTSP-RCNNとの比較も行い、同等の精度との主張。

その他(なぜ通ったか?等)

収束を早くし、検出性能も高くなる結果を示したため通ったと考えられる。PyTorch実装( https://github.com/Atten4Vis/ConditionalDETR )が公開されている。