#325
summarized by : Shintaro Yamamoto
Open-Vocabulary Object Detection Using Captions

どんな論文か?

従来の物体検出手法は,検出可能なカテゴリーが学習データにあるものに限定されていた.それに対して,より多くの物体の情報が含まれている画像キャプショニングのデータを活用することで,多様な物体クラスに対応できるようにするOpen-Vocabulary Object Detectionを提案.
placeholder

新規性

始めに,多様な物体情報が含まれている画像キャプショニングのデータセットを使ってvisual-semantic spaceを学習.次に,通常の物体検出データセットによって,物体検出を学習する.推論時には,semantic spaceを活用することで物体検出データセットにないクラスの検出を行う.

結果

評価指標としてmAPを用いたところ,従来のzero-shot(10%⇒27%)とweakly supervised(26%⇒40%)手法を上回った.

その他(なぜ通ったか?等)

https://github.com/alirezazareian/ovr-cnn