Simple Open-Vocabulary Object Detection with Vision Transformers

#124

summarized by : Yui Iioka @KeioUniv.

Matthias Minderer; Alexey Gritsenko; Austin Stone; Maxim Neumann; Dirk Weissenborn; Alexey Dosovitskiy; Aravindh Mahendran; Anurag Arnab; Mostafa Dehghani; Zhuoran Shen; Xiao Wang; Xiaohua Zhai; Thomas Kipf; Neil Houlsby

どんな論文か？

open-vocablary(単語制約のない)物体検出モデル

新規性

CLIP構造を用いた大規模な事前学習，その知識を転移させた物体検出モデルという非常にシンプルな構成. 転移学習時に画像トークンをMulti-head化し，位置情報を付与. 各画像に対してオブジェクトごとの説明付与が可能に.

結果

物体検出タスクにおいて，zero-shot・few-shotともに既存手法（GLIP等）を上回る性能を報告. また事前学習に用いるデータセットやモデル構造に対するablationを行った.

その他（なぜ通ったか？等）

demo：https://huggingface.co/spaces/adirik/OWL-ViT github：https://github.com/google-research/scenic/tree/main/scenic/projects/owl_vit 論文を読んだ感想としては，ablation以外は読みやすく，これまでの物体検出の流れも知れるのでよかった.

このページで利用されている画像は論文から引用しています．