- …
- …
#124
summarized by : Yui Iioka @KeioUniv.
新規性
CLIP構造を用いた大規模な事前学習,その知識を転移させた物体検出モデルという非常にシンプルな構成. 転移学習時に画像トークンをMulti-head化し,位置情報を付与. 各画像に対してオブジェクトごとの説明付与が可能に.
結果
物体検出タスクにおいて,zero-shot・few-shotともに既存手法(GLIP等)を上回る性能を報告. また事前学習に用いるデータセットやモデル構造に対するablationを行った.
その他(なぜ通ったか?等)
demo:https://huggingface.co/spaces/adirik/OWL-ViT
github:https://github.com/google-research/scenic/tree/main/scenic/projects/owl_vit
論文を読んだ感想としては,ablation以外は読みやすく,これまでの物体検出の流れも知れるのでよかった.
- …
- …