Relation-aware Instance Refinement for Weakly Supervised Visual Grounding

#472

summarized by : Seitaro Shinagawa

Yongfei Liu, Bo Wan, Lin Ma, Xuming He

どんな論文か？

画像とその説明文から物体の矩形と名詞句のアラインメントを行うVisual groundingタスクに適用する新しいモデルを提案。物体検出器から得られた物体の矩形候補で、似ている矩形同士を近づけるように学習を進めるself-taught learning、画像の矩形特徴量同士の関係の分類、クエリの再構成の３つの目的関数を用いて学習する。

新規性

既存手法は物体の矩形の特徴量とフレーズ（名詞句）の類似度を単純に計算していた。本手法は、物体の矩形の特徴量を粗くよりわけてからGraph neural networkに通して特徴量間の関係性を学習させる多段階の操作で精度を上げている。

結果

Flickr30K EntitiesとReferItGameの２つのベンチマークで既存の手法に対して有用性を示した。

その他（なぜ通ったか？等）

コードが公開予定：https://github.com/youngfly11/ReIR-WeaklyGrounding.pytorch

このページで利用されている画像は論文から引用しています．