#166
summarized by : Hirokatsu Kataoka
Open Vocabulary Object Detection with Pseudo Bounding-Box Labels

どんな論文か?

Pre-trained Vision-Language (VL) Modelにより擬似ラベル(Pseudo Label)を付与することにより、物体ラベルの数を大幅に(数十→数千など)増加させることに成功し、いわゆるOpen Set Object Detectionに問題設定を拡張することに成功した。VL Modelは画像キャプションから画像中の検出枠に置き換えることができる。
placeholder

新規性

従来では人間によりアノテーションが行われていたが、提案手法ではVL Modelの適用により文章から物体ラベルが付与された状態の検出枠に変換ができる。これを擬似ラベルとして物体検出器を学習することにより、多数カテゴリが含まれる「開かれた世界の(これをOpenSet設定などという)」物体検出が実現する。

結果

COCO / Pascal VOC / Object365 / LVISに対して新規物体検出タスクを実施したところ、従来のOpenset設定の物体検出(Zareian et al. [34])よりも良好な精度を記録した。VL Modelによる擬似ラベル付与の方法の有効性を示している。

その他(なぜ通ったか?等)