#455
summarized by : Keito Ishihara
Cross-Modal Relationship Inference for Grounding Referring Expressions

どんな論文か?

画像中のオブジェクトと説明文の対応づけタスクを取り扱っている。既存手法では複数対応が捉えきれていなかったり文脈との矛盾が生じていたが、それを解決するCross-Modal Relationship Inference Net- work (CMRIN) を提案している。
placeholder

新規性

cross-modal attention mechanism により単語と物体のペアのグラフを構築するCross-Modal Relationship Extractor (CMRE)と、複数ペアにも対応可能なグラフから文脈や情報を獲得するGated Graph Convolutional Network (GGCN)の組み合わせによりモデルを構築した。

結果

MSCOCOベースの3つのデータセットで実験を行いstate-of-the-artを達成

その他(なぜ通ったか?等)