summarized by : Shintaro Yamamoto
Ben-Zion Vatashsky, Shimon Ullman
従来のVQAモデルは、質問から答えの導出を一つのネットワークで行っているため、新しいドメインへの適応が困難である。質問をグラフに変換したうえで、質問への答えを導く二段階のモデルを提案した。
質問文と画像を分けて考える2段階の学習方法を提案。最初の学習では、質問文をグラフに変換するseq2seqモデルを学習する。続いて、質問文から得られたグラフと画像より、答えを導くモデルを学習。
グラフ上で答えの導出を行うため、ドメインに依存せずにタスクを解くことが可能となった
数式がなくて読みにくい