Multimodal Neural Graph Memory Networks for Visual Question Answering

#42 #acl2020

summarized by : sobamchan

Mahmoud Khademi

概要

VQA において，画像中に出現するオブジェクトの関係を表現するのは重要な要素である．なので，CNN の利用はそれに向いてないかもしれない．この解決のために，visual/textual features を nodes として捉えることでオブジェクト間の関係を表現できる，Multimodal Neural Graph Memory Network (MN-GMN) を提案． GMN を活用することで各モーダル内のオブジェクト間の関係を表現しつつ，MN を使って，モーダル間の連携を行う．

新規性

画像とテキストのオブジェクト間の関係を GN で表現した．

結果

VQA-v2.0, Visual7W, CLEVR で実験し，従来手法を上回った．

このページで利用されている画像は論文から引用しています．