Towards Open-Vocabulary Scene Graph Generation with Prompt-Based Finetuning

#19

summarized by : Seitaro Shinagawa

Tao He; Lianli Gao; Jingkuan Song; Yuan-Fang Li

どんな論文か？

画像からのシーングラフ生成タスク。open-vocabulary scene graph generationという挑戦的な新しいタスクを導入。物体ごとの画像キャプションで事前学習を行い、プロンプトベースの手法（ハード、ソフト）によって、事前学習したモデルのパラメータチューニングなしに下流タスクにfine-tuningする

新規性

open-vocabulary scene graph generationの提案

結果

既存のクローズセットでは提案手法が既存手法を上回っており、open-vocabularyな設定では既存の手法は適用できず、本提案ではR@50で33.5という結果。

その他（なぜ通ったか？等）

疑問として、未知物体間の関係性を予測する前にまず未知物体自体の予測ができることが必要だと思いますが、その機序はよくわかりませんでした

このページで利用されている画像は論文から引用しています．