#472
summarized by : Seitaro Shinagawa
Relation-aware Instance Refinement for Weakly Supervised Visual Grounding

どんな論文か?

画像とその説明文から物体の矩形と名詞句のアラインメントを行うVisual groundingタスクに適用する新しいモデルを提案。物体検出器から得られた物体の矩形候補で、似ている矩形同士を近づけるように学習を進めるself-taught learning、画像の矩形特徴量同士の関係の分類、クエリの再構成の3つの目的関数を用いて学習する。
placeholder

新規性

既存手法は物体の矩形の特徴量とフレーズ(名詞句)の類似度を単純に計算していた。 本手法は、物体の矩形の特徴量を粗くよりわけてからGraph neural networkに通して特徴量間の関係性を学習させる多段階の操作で精度を上げている。

結果

Flickr30K EntitiesとReferItGameの2つのベンチマークで既存の手法に対して有用性を示した。

その他(なぜ通ったか?等)

コードが公開予定:https://github.com/youngfly11/ReIR-WeaklyGrounding.pytorch