#683
summarized by : kota yoshida
MUREL: Multimodal Relational Reasoning for Visual Question Answering

どんな論文か?

本稿では,VQAにおいて実画像上で推論するためにend-to-endで学習するmultimodal relational network(MuRel)を提案する,
placeholder

新規性

MuRelセルの導入・・・質問領域と画像領域の間の相互作用を表現力の高いベクトルで表現し,極小で簡素に推論ペアを組み合わせ,領域の関係をモデル化 セルをMuRelネットワークに組み入れ・・・視覚的な相互作用と質問の相互作用が徐々に洗練され、単なるアテンションマップよりも細かい視覚化スキームを定義

結果

VQA 2.0,VQA-CP v2とTDIUCに基づくattentionに基づく方法に対して,提案されたMuRelはSoTAを示した.

その他(なぜ通ったか?等)