#278
summarized by : cho
RegionCLIP: Region-Based Language-Image Pretraining

どんな論文か?

CLIPをそのまま物体検出に使うと、 物体領域とテキストトークンの関連性を学んでいなかったため、性能うまく発揮できないと主張。そこで、本論文が領域とトークンなど細かい部分も関連できる「RegionCLIP」を提案。物体領域(from RPN)とConcept pool(from mage-text corpus)をCLIPでペアリング、 対照学習と蒸留でそのペアの関連性を学習させる。
placeholder

新規性

領域とテキストを自動的にリンクする仕組みを提案する。

結果

COCO:3.8 AP50, LVIS: 2.2 AP

その他(なぜ通ったか?等)

https://github.com/microsoft/RegionCLIP