Rethinking Transformer-Based Set Prediction for Object Detection

#190

summarized by : Masanori YANO

Zhiqing Sun, Shengcao Cao, Yiming Yang, Kris M. Kitani

どんな論文か？

Transformerを使用した物体検出で、訓練時に収束が遅いDETRの課題を分析し、改良した手法を示した論文。DETRのCross-Attentionレイヤーが主な原因と特定し、取り除くことで生じる弱点に対し従来手法のアプローチを取り入れて補完している。

新規性

デコーダを使用せず、Transformerはエンコーダのみを使用し、FCOSのHeadに着想を得たネットワーク構造をTransformerの手前に組み込んだTSP-FCOSを提案した。加えて、Faster R-CNNのRoI構造とMask R-CNNのRoIAlignを取り入れたTSP-RCNNも提案した。

結果

バックボーンにResNet-50とResNet-101を使用し、COCOデータセットで評価を行い、DETRより訓練時の収束が早く、精度に関してもベースラインの従来手法を上回る結果。DETRが苦手としていた小さいオブジェクトの検出も高い精度。

その他（なぜ通ったか？等）

収束を早くし、検出性能も高くなる結果を示したため通ったと考えられる。Detectron2ベースの実装( https://github.com/Edward-Sun/TSP-Detection )が公開されている。

このページで利用されている画像は論文から引用しています．