ProposalCLIP: Unsupervised Open-Category Object Proposal Generation via Exploiting CLIP Cues

#436

summarized by : Hirokatsu Kataoka

Hengcan Shi; Munawar Hayat; Yicheng Wu; Jianfei Cai

どんな論文か？

CLIP（Contrastive Language-Image Pre-training）の対応関係により、教師なしで物体候補領域の抽出はできるか、という疑問に取り組んだ研究である。CLIPによるカテゴリに依存しない物体候補領域の解析と統合を実施し、CLIPから与えられる擬似ラベルを用いてクレンジング。

新規性

実世界アプリケーションのための物体候補領域を教師なし学習ながら効果的に生成することに成功した。CLIPは教師としてはものすごく優秀であり、物体検出の前工程である物体候補領域生成にも効果的であることを示した。

結果

Pascal VOC, MSCOCO, Visual Genomeなど代表的なデータセットにおいて、CLIP以外の教師がない学習ながら、従来法を打ち破る精度まで到達したことを報告している。

その他（なぜ通ったか？等）

CLIP以外は教師を用いていない→CLIPが教師としてものすごく優秀なレベルまで到達、と読み替えた方が良さそう。

このページで利用されている画像は論文から引用しています．