summarized by : Shintaro Yamamoto
Eun-Sol Kim, Woo Young Kang, Kyoung-Woon On, Yu-Jung Heo, Byoung-Tak Zhang
画像と質問文をscene graphやdependency treeなどのグラフとして表現することで、VQAの答えを導き出すHypergraph Attention Networks (HANs)を提案。
画像と質問文から作られる2つのグラフよりco-attention mapを求め、正解を導くための特徴表現を獲得する。
VQA2.0とGQAの2つのデータセットで実験を行い、グラフ表現が有効であることを確認。GQAではSOTAを7%近く更新。