#196
summarized by : Masanori YANO
Dynamic DETR: End-to-End Object Detection With Dynamic Attention

どんな論文か?

Transformerを使用した物体検出で、小さいオブジェクトの検出性能と訓練時に収束が遅いDETRの課題に対し、前者はエンコーダに動的な畳み込みを取り入れ、後者はデコーダにRoIベースの動的なアテンション機構を取り入れることで改良した手法。
placeholder

新規性

DETRのTransformer部分に対し、複数の特徴マップのサイズ合わせ込みとDeformable Convolutionを組み込んだエンコーダと、RoIプーリングを行いバウンディングボックスの情報をエンコードして組み込むことでCross-Attentionレイヤーを改良したデコーダから構成されるDynamic DETRを提案した。

結果

バックボーンにResNet-50とResNeXt-101を使用し、COCOデータセットで評価を行い、DETRより訓練時の収束が早く、小さいオブジェクトの検出を含めた精度に関しても従来手法を上回る結果。

その他(なぜ通ったか?等)

収束を早くし、検出性能も高くなる結果を示したため通ったと考えられる。ICCV 2021に採択された複数のDETR訓練高速化の論文のうち、本論文のみ現時点では実装が公開されていない。