Conditional DETR for Fast Training Convergence

#194

summarized by : Masanori YANO

Depu Meng, Xiaokang Chen, Zejia Fan, Gang Zeng, Houqiang Li, Yuhui Yuan, Lei Sun, Jingdong Wang

Transformerを使用した物体検出で、訓練時に収束が遅いDETRの課題に対し、アテンションの計算にオブジェクトの位置の推定結果が反映されるように改良した手法。DETRのQueryに画像のオブジェクトの情報が含まれないことが収束が遅い要因と仮定し、空間的な情報を反映する機構を提案している。

DETRのTransformerのデコーダに含まれるCross-AttentionのQueryに、オブジェクトの位置の推定結果が埋め込まれる機構を追加し、またオブジェクトの種類と位置にかかる内積計算を分離したConditional DETRを提案した。

バックボーンにResNet-50とResNet-101を使用し、COCOデータセットで評価を行い、DETRより訓練時の収束が早く、精度に関してもDETRを上回る結果。同じくICCV 2021採択の手法であるTSP-FCOS及びTSP-RCNNとの比較も行い、同等の精度との主張。

収束を早くし、検出性能も高くなる結果を示したため通ったと考えられる。PyTorch実装( https://github.com/Atten4Vis/ConditionalDETR )が公開されている。

このページで利用されている画像は論文から引用しています．