summarized by : sobamchan
Multimodal Neural Graph Memory Networks for Visual Question Answering

概要

VQA において,画像中に出現するオブジェクトの関係を表現するのは重要な要素である.なので,CNN の利用はそれに向いてないかもしれない. この解決のために,visual/textual features を nodes として捉えることでオブジェクト間の関係を表現できる,Multimodal Neural Graph Memory Network (MN-GMN) を提案. GMN を活用することで各モーダル内のオブジェクト間の関係を表現しつつ,MN を使って,モーダル間の連携を行う.
placeholder

新規性

画像とテキストのオブジェクト間の関係を GN で表現した.

結果

VQA-v2.0, Visual7W, CLEVR で実験し,従来手法を上回った.