summarized by : Shintaro Yamamoto
            
   
          Ben-Zion Vatashsky, Shimon Ullman
      
 従来のVQAモデルは、質問から答えの導出を一つのネットワークで行っているため、新しいドメインへの適応が困難である。質問をグラフに変換したうえで、質問への答えを導く二段階のモデルを提案した。
  質問文と画像を分けて考える2段階の学習方法を提案。最初の学習では、質問文をグラフに変換するseq2seqモデルを学習する。続いて、質問文から得られたグラフと画像より、答えを導くモデルを学習。
  グラフ上で答えの導出を行うため、ドメインに依存せずにタスクを解くことが可能となった
  数式がなくて読みにくい