MUREL: Multimodal Relational Reasoning for Visual Question Answering

#683

summarized by : kota yoshida

Remi Cadene, Hedi Ben-younes, Matthieu Cord, Nicolas Thome

本稿では，VQAにおいて実画像上で推論するためにend-to-endで学習するmultimodal relational network(MuRel)を提案する，

MuRelセルの導入・・・質問領域と画像領域の間の相互作用を表現力の高いベクトルで表現し，極小で簡素に推論ペアを組み合わせ，領域の関係をモデル化セルをMuRelネットワークに組み入れ・・・視覚的な相互作用と質問の相互作用が徐々に洗練され、単なるアテンションマップよりも細かい視覚化スキームを定義

VQA 2.0，VQA-CP v2とTDIUCに基づくattentionに基づく方法に対して，提案されたMuRelはSoTAを示した．

このページで利用されている画像は論文から引用しています．