RegionCLIP: Region-Based Language-Image Pretraining

#278

summarized by : cho

Yiwu Zhong; Jianwei Yang; Pengchuan Zhang; Chunyuan Li; Noel Codella; Liunian Harold Li; Luowei Zhou; Xiyang Dai; Lu Yuan; Yin Li; Jianfeng Gao

どんな論文か？

CLIPをそのまま物体検出に使うと、物体領域とテキストトークンの関連性を学んでいなかったため、性能うまく発揮できないと主張。そこで、本論文が領域とトークンなど細かい部分も関連できる「RegionCLIP」を提案。物体領域(from RPN)とConcept pool(from mage-text corpus)をCLIPでペアリング、対照学習と蒸留でそのペアの関連性を学習させる。

新規性

領域とテキストを自動的にリンクする仕組みを提案する。

結果

COCO：3.8 AP50, LVIS: 2.2 AP

その他（なぜ通ったか？等）

https://github.com/microsoft/RegionCLIP

このページで利用されている画像は論文から引用しています．