Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding

#217

summarized by : QIUYUE

Haojun Jiang; Yuanze Lin; Dongchen Han; Shiji Song; Gao Huang

どんな論文か？

Visual Grounding（VG）タスクは従来大量なラベルデータが必要。ここで、画像から疑似な物体関係のクエリーを生成するプロセスを導入し学習に必要なサンプル数を減らした。提案手法は検出器で物体検出し、Unsupervisedで物体間の関係のPseudo クエリーを生成。次にVGタスクに設計したクエリー Promptモデルで、画像、クエリー、そしてVGのテキスト情報の関係性を学習。

新規性

Visual Grounding（VG）タスクでの人工ラベル生成のコストが高い。この論文で外部の検出器やAttribute検出器などを追加し、画像から疑似のQueryを生成した（Query：物体、物体属性、物体間の位置関係）。そのQueryが有効的に VGの学習サンプルを減られることを示した。また、 VGタスクへNLPで流行っているPromptを導入した。

結果

提案手法が大幅に必要な学習データを減らせた（RefCOCOで31%削減）。また、５つのVisual Groundingタスクで既存手法と同レベル程度（もしくは提案手法が高い）の性能を実現した。

その他（なぜ通ったか？等）

NLPで流行っているPromptが、Vision and Languageでも流行ってきている。

このページで利用されている画像は論文から引用しています．