#420
summarized by : Shintaro Yamamoto
Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

どんな論文か?

画像中のテキスト情報を用いるText VQAでは、単語の意味や数字の大小などを理解する必要がある。画像中の情報を3種類のグラフにより表現し、特徴表現を獲得するMulti-Modal Graph Neural Network (MM-GNN)を提案。
placeholder

新規性

MM-GNNでは、(1)視覚的情報(2)言語的意味(3)数字を表現する3つのサブグラフを構築する。3つのサブグラフに対して、異なるサブグラフからのアテンションや同じサブグラフから得られるアテンションを求めて処理することで、画像の特徴表現を獲得する。

結果

提案手法により、TextVQAにおけるSOTAを更新した。また、グラフの処理過程で得られる中間出力は解釈性が高いという特徴がある。

その他(なぜ通ったか?等)