- …
- …
#455
summarized by : Keito Ishihara
どんな論文か?
画像中のオブジェクトと説明文の対応づけタスクを取り扱っている。既存手法では複数対応が捉えきれていなかったり文脈との矛盾が生じていたが、それを解決するCross-Modal Relationship Inference Net- work (CMRIN) を提案している。
新規性
cross-modal attention mechanism により単語と物体のペアのグラフを構築するCross-Modal Relationship Extractor (CMRE)と、複数ペアにも対応可能なグラフから文脈や情報を獲得するGated Graph Convolutional Network (GGCN)の組み合わせによりモデルを構築した。
結果
MSCOCOベースの3つのデータセットで実験を行いstate-of-the-artを達成
その他(なぜ通ったか?等)
- …
- …