Cross-Modality Relevance for Reasoning on Language and Vision

#41 #acl2020

summarized by : sobamchan

Chen Zheng, Quan Guo, Parisa Kordjamshidi

概要

従来の multi-modal (vision, text) をやっているモデルは，attention を使って重要な情報にハイライトをし合っている． 2 つの情報をマッチングするのは IR でよくやられることで，そこでは，ハイライトではなくマッチング．でもそれはあまり調査されていない．そこで，IR に着想を得た，画像内のオブジェクトとテキスト内の単語の関連を直接使って表現を学習するモデル，cross-modality relevance (CMR)，を提案．

新規性

LXMERT とにているが，各モーダルの特徴量抽出後に attention で両情報を反映し合うのではなく，マッチングを使った．

結果

NLVR (natural language for visual reasoning) と VQA (visual question answering) にて strong baseline を超えた．

このページで利用されている画像は論文から引用しています．