#124
summarized by : Yui Iioka @KeioUniv.
Simple Open-Vocabulary Object Detection with Vision Transformers

どんな論文か?

open-vocablary(単語制約のない)物体検出モデル
placeholder

新規性

CLIP構造を用いた大規模な事前学習,その知識を転移させた物体検出モデルという非常にシンプルな構成. 転移学習時に画像トークンをMulti-head化し,位置情報を付与. 各画像に対してオブジェクトごとの説明付与が可能に.

結果

物体検出タスクにおいて,zero-shot・few-shotともに既存手法(GLIP等)を上回る性能を報告. また事前学習に用いるデータセットやモデル構造に対するablationを行った.

その他(なぜ通ったか?等)

demo:https://huggingface.co/spaces/adirik/OWL-ViT github:https://github.com/google-research/scenic/tree/main/scenic/projects/owl_vit 論文を読んだ感想としては,ablation以外は読みやすく,これまでの物体検出の流れも知れるのでよかった.