Cross-Modal Relationship Inference for Grounding Referring Expressions

#455

summarized by : Keito Ishihara

Sibei Yang, Guanbin Li, Yizhou Yu

どんな論文か？

画像中のオブジェクトと説明文の対応づけタスクを取り扱っている。既存手法では複数対応が捉えきれていなかったり文脈との矛盾が生じていたが、それを解決するCross-Modal Relationship Inference Net- work (CMRIN) を提案している。

新規性

cross-modal attention mechanism により単語と物体のペアのグラフを構築するCross-Modal Relationship Extractor (CMRE)と、複数ペアにも対応可能なグラフから文脈や情報を獲得するGated Graph Convolutional Network (GGCN)の組み合わせによりモデルを構築した。

結果

MSCOCOベースの3つのデータセットで実験を行いstate-of-the-artを達成

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．