#198
summarized by : Masanori YANO
WB-DETR: Transformer-Based Detector Without Backbone

どんな論文か?

物体検出で、バックボーンのCNNを使用せずに、全てTransformerベースで実現した手法。従来手法のDETRは、フロントはTransformerベースを実現していたが、バックボーンにはResNetを使用して特徴抽出を行っていた。
placeholder

新規性

ViTと同じく画像を切り出して変形したトークンにPositional Encodingを追加し、複数のトークンで構成された部分空間にアテンションをかけるLIE-T2Tを、画像を入力とするTransformerのエンコーダに組み込んだWB-DETRを提案した。

結果

COCOデータセットで評価を行い、Faster R-CNNやDETRより大幅に少ない計算量で、Faster R-CNNと同等の精度との主張。ただし、DETRに対して指摘されている小さいオブジェクトの検出性能の弱さは継承されていて、Faster R-CNNやDETRを下回る結果。

その他(なぜ通ったか?等)

CVPR 2014採択のR-CNNに始まり、Faster R-CNNが確立した「CNNによる特徴抽出」を全く使用しない物体検出のアプローチを示したため通ったと考えられる。検出性能に関しては、今後の論文でDETRを上回る可能性が極めて高いと思われる。