#190
summarized by : Masanori YANO
Rethinking Transformer-Based Set Prediction for Object Detection

どんな論文か?

Transformerを使用した物体検出で、訓練時に収束が遅いDETRの課題を分析し、改良した手法を示した論文。DETRのCross-Attentionレイヤーが主な原因と特定し、取り除くことで生じる弱点に対し従来手法のアプローチを取り入れて補完している。
placeholder

新規性

デコーダを使用せず、Transformerはエンコーダのみを使用し、FCOSのHeadに着想を得たネットワーク構造をTransformerの手前に組み込んだTSP-FCOSを提案した。加えて、Faster R-CNNのRoI構造とMask R-CNNのRoIAlignを取り入れたTSP-RCNNも提案した。

結果

バックボーンにResNet-50とResNet-101を使用し、COCOデータセットで評価を行い、DETRより訓練時の収束が早く、精度に関してもベースラインの従来手法を上回る結果。DETRが苦手としていた小さいオブジェクトの検出も高い精度。

その他(なぜ通ったか?等)

収束を早くし、検出性能も高くなる結果を示したため通ったと考えられる。Detectron2ベースの実装( https://github.com/Edward-Sun/TSP-Detection )が公開されている。