#839
summarized by : Shintaro Yamamoto
Hypergraph Attention Networks for Multimodal Learning

どんな論文か?

画像と質問文をscene graphやdependency treeなどのグラフとして表現することで、VQAの答えを導き出すHypergraph Attention Networks (HANs)を提案。
placeholder

新規性

画像と質問文から作られる2つのグラフよりco-attention mapを求め、正解を導くための特徴表現を獲得する。

結果

VQA2.0とGQAの2つのデータセットで実験を行い、グラフ表現が有効であることを確認。GQAではSOTAを7%近く更新。

その他(なぜ通ったか?等)