#340
summarized by : Seitaro Shinagawa
Unsupervised Vision-Language Parsing: Seamlessly Bridging Visual Scene Graphs With Language Structures via Dependency Relationships

どんな論文か?

説明文を係り受け解析器によりパースした木構造と学習済みの物体検出器のみを用いて、シーングラフを使わずに教師なしでシーングラフ相当のグラフ構造を獲得する手法の提案。画像とテキストのマッチングによる対照学習とシーングラフ構造の生成タスクを同時に解くことで実現した。
placeholder

新規性

シーングラフを用いずに画像と説明文のみからシーングラフ的なグラフ構造を獲得するという点、特に言語側に係り受け解析による木構造を用いている点。これは教師なしのシーングラフ生成であるため、評価する方法として新たにシーングラフと係り受け解析木の名寄せとアラインメントを行った評価用データセットVLParse datasetを作成した点。この問題設定を解くエンコーダデコーダモデルであるVLGAEを提案した点

結果

生成されるグラフ構造は係り受け解析のものに依存しているので、係り受け解析木の再構成として評価すると、先行研究の画像なしのものと比べて係り受け解析の木が大きい時(長い文)の時に特に画像を使うメリットがある。 最終的に生成されたグラフ構造をScene Graphとして評価するために、最終的にはルールで名寄せを行って評価している。まだまだ性能向上の余地は大きいと思われる。

その他(なぜ通ったか?等)

シーングラフを使わずにシーングラフ的な構造を獲得するというコンセプトが野心的で面白かったです。ただ、教師なしのシーングラフ生成は先行研究があるので、少なくとも関連研究として言及すべきと思いました。本論文は第二著者の教師なし係り受け解析の研究(D-NDMV [15])のシンプルな拡張であり、画像を加えたことによる性能向上も1%程度とコンセプト以外の観点では少し煮え切らない印象を受けました。