WB-DETR: Transformer-Based Detector Without Backbone

#198

summarized by : Masanori YANO

Fanfan Liu, Haoran Wei, Wenzhe Zhao, Guozhen Li, Jingquan Peng, Zihao Li

物体検出で、バックボーンのCNNを使用せずに、全てTransformerベースで実現した手法。従来手法のDETRは、フロントはTransformerベースを実現していたが、バックボーンにはResNetを使用して特徴抽出を行っていた。

ViTと同じく画像を切り出して変形したトークンにPositional Encodingを追加し、複数のトークンで構成された部分空間にアテンションをかけるLIE-T2Tを、画像を入力とするTransformerのエンコーダに組み込んだWB-DETRを提案した。

COCOデータセットで評価を行い、Faster R-CNNやDETRより大幅に少ない計算量で、Faster R-CNNと同等の精度との主張。ただし、DETRに対して指摘されている小さいオブジェクトの検出性能の弱さは継承されていて、Faster R-CNNやDETRを下回る結果。

CVPR 2014採択のR-CNNに始まり、Faster R-CNNが確立した「CNNによる特徴抽出」を全く使用しない物体検出のアプローチを示したため通ったと考えられる。検出性能に関しては、今後の論文でDETRを上回る可能性が極めて高いと思われる。

このページで利用されている画像は論文から引用しています．