#217
summarized by : QIUYUE
Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding

どんな論文か?

Visual Grounding(VG)タスクは従来大量なラベルデータが必要。ここで、画像から疑似な物体関係のクエリーを生成するプロセスを導入し学習に必要なサンプル数を減らした。提案手法は検出器で物体検出し、Unsupervisedで物体間の関係のPseudo クエリーを生成。次にVGタスクに設計したクエリー Promptモデルで、画像、クエリー、そしてVGのテキスト情報の関係性を学習。
placeholder

新規性

Visual Grounding(VG)タスクでの人工ラベル生成のコストが高い。この論文で外部の検出器やAttribute検出器などを追加し、画像から疑似のQueryを生成した(Query:物体、物体属性、物体間の位置関係)。そのQueryが有効的に VGの学習サンプルを減られることを示した。また、 VGタスクへNLPで流行っているPromptを導入した。

結果

提案手法が大幅に必要な学習データを減らせた(RefCOCOで31%削減)。また、5つのVisual Groundingタスクで既存手法と同レベル程度(もしくは提案手法が高い)の性能を実現した。

その他(なぜ通ったか?等)

NLPで流行っているPromptが、Vision and Languageでも流行ってきている。