Efficient Decoder-Free Object Detection with Transformers

#297

summarized by : Masanori YANO

Peixian Chen; Mengdan Zhang; Yunhang Shen; Kekai Sheng; Yuting Gao; Xing Sun; Ke Li; Chunhua Shen

物体検出で、デコーダを使用せず全てTransformerベースで実現した手法。DETR以降に使用されているTransformerデコーダが性能低下の要因と指摘し、アンカーベースの改善策を提示している。

マルチスケールの特徴抽出を目的としたDOTバックボーンと、マルチスケールの特徴マップを一つに集約するSAEブロックと、グループかつチャネル単位のアテンション機構で物体検出を行うTAEで構成されるDFFTを提案した。

COCOデータセットで評価を行い、従来手法を上回る結果。DETR以降のTransformerベースの従来手法と比較して、訓練時の収束も早い結果。

新たなネットワーク構造を提案し、検出性能も高いため通ったと考えられる。MMDetectionベースの実装( https://github.com/PeixianChen/DFFT )が公開されている。

このページで利用されている画像は論文から引用しています．