- …
- …
#42 #acl2020
summarized by : sobamchan
概要
VQA において,画像中に出現するオブジェクトの関係を表現するのは重要な要素である.なので,CNN の利用はそれに向いてないかもしれない.
この解決のために,visual/textual features を nodes として捉えることでオブジェクト間の関係を表現できる,Multimodal Neural Graph Memory Network (MN-GMN) を提案.
GMN を活用することで各モーダル内のオブジェクト間の関係を表現しつつ,MN を使って,モーダル間の連携を行う.
新規性
画像とテキストのオブジェクト間の関係を GN で表現した.
結果
VQA-v2.0, Visual7W, CLEVR で実験し,従来手法を上回った.
- …
- …