summarized by : sobamchan
Cross-Modality Relevance for Reasoning on Language and Vision

概要

従来の multi-modal (vision, text) をやっているモデルは,attention を使って重要な情報にハイライトをし合っている. 2 つの情報をマッチングするのは IR でよくやられることで,そこでは,ハイライトではなくマッチング.でもそれはあまり調査されていない. そこで,IR に着想を得た,画像内のオブジェクトとテキスト内の単語の関連を直接使って表現を学習するモデル,cross-modality relevance (CMR),を提案.
placeholder

新規性

LXMERT とにているが,各モーダルの特徴量抽出後に attention で両情報を反映し合うのではなく,マッチングを使った.

結果

NLVR (natural language for visual reasoning) と VQA (visual question answering) にて strong baseline を超えた.