Open-Vocabulary Object Detection Using Captions

#325

summarized by : Shintaro Yamamoto

Alireza Zareian, Kevin Dela Rosa, Derek Hao Hu, Shih-Fu Chang

従来の物体検出手法は，検出可能なカテゴリーが学習データにあるものに限定されていた．それに対して，より多くの物体の情報が含まれている画像キャプショニングのデータを活用することで，多様な物体クラスに対応できるようにするOpen-Vocabulary Object Detectionを提案．

始めに，多様な物体情報が含まれている画像キャプショニングのデータセットを使ってvisual-semantic spaceを学習．次に，通常の物体検出データセットによって，物体検出を学習する．推論時には，semantic spaceを活用することで物体検出データセットにないクラスの検出を行う．

評価指標としてmAPを用いたところ，従来のzero-shot(10％⇒27%)とweakly supervised(26%⇒40%)手法を上回った．

https://github.com/alirezazareian/ovr-cnn

このページで利用されている画像は論文から引用しています．