- …
- …
#41 #acl2020
summarized by : sobamchan
概要
従来の multi-modal (vision, text) をやっているモデルは,attention を使って重要な情報にハイライトをし合っている.
2 つの情報をマッチングするのは IR でよくやられることで,そこでは,ハイライトではなくマッチング.でもそれはあまり調査されていない.
そこで,IR に着想を得た,画像内のオブジェクトとテキスト内の単語の関連を直接使って表現を学習するモデル,cross-modality relevance (CMR),を提案.
新規性
LXMERT とにているが,各モーダルの特徴量抽出後に attention で両情報を反映し合うのではなく,マッチングを使った.
結果
NLVR (natural language for visual reasoning) と VQA (visual question answering) にて strong baseline を超えた.
- …
- …