Detecting Twenty-Thousand Classes Using Image-Level Supervision

#158

summarized by : Hirokatsu Kataoka

Xingyi Zhou; Rohit Girdhar; Armand Joulin; Philipp Krähenbühl; Ishan Misra

どんな論文か？

アノテーションの困難さにより限定されている物体検出のカテゴリ数の限界を、画像識別の教示により突破する手法を提案。カテゴリによらない物体領域抽出に対してImageNet-21kのカテゴリを認識できるようにしたことで、20kカテゴリを超える物体検出器を実現。

新規性

Bboxの教示なし、カテゴリの追加教示のみで物体検出能力を損なうことなく多数カテゴリ検出を実現する枠組みであるDeticを提案。添付画像は（左）物体検出学習時と（右）物体ラベルのみ学習時である。物体検出がbbox推定と物体ラベル推定を同時学習するのに対して、物体ラベルのみ学習時にはbbox推定は固定して物体ラベル推定のみを学習。

結果

LVISデータセットの全カテゴリにおいて2.4 mAP向上、新規カテゴリにおいて8.3 mAP向上を実現、さらにImageNet-21kのカテゴリを学習することで2万カテゴリを超える物体を理解する物体検出器を学習した。

その他（なぜ通ったか？等）

多数カテゴリを理解できる物体検出はYOLO9000などいくつか提案されてきたが、精度の面であまり良いとは言えなかった。今回は物体検出と多数カテゴリ識別の能力を組み合わせることで、ImageNet-21kに含まれている2万カテゴリ以上の物体検出を実現できることを明らかにしたことが、採択の要因である。

このページで利用されている画像は論文から引用しています．