- …
- …
#325
summarized by : Shintaro Yamamoto
どんな論文か?
従来の物体検出手法は,検出可能なカテゴリーが学習データにあるものに限定されていた.それに対して,より多くの物体の情報が含まれている画像キャプショニングのデータを活用することで,多様な物体クラスに対応できるようにするOpen-Vocabulary Object Detectionを提案.
新規性
始めに,多様な物体情報が含まれている画像キャプショニングのデータセットを使ってvisual-semantic spaceを学習.次に,通常の物体検出データセットによって,物体検出を学習する.推論時には,semantic spaceを活用することで物体検出データセットにないクラスの検出を行う.
結果
評価指標としてmAPを用いたところ,従来のzero-shot(10%⇒27%)とweakly supervised(26%⇒40%)手法を上回った.
その他(なぜ通ったか?等)
https://github.com/alirezazareian/ovr-cnn
- …
- …