VQA With No Questions-Answers Training

#189

summarized by : Shintaro Yamamoto

Ben-Zion Vatashsky, Shimon Ullman

従来のVQAモデルは、質問から答えの導出を一つのネットワークで行っているため、新しいドメインへの適応が困難である。質問をグラフに変換したうえで、質問への答えを導く二段階のモデルを提案した。

質問文と画像を分けて考える2段階の学習方法を提案。最初の学習では、質問文をグラフに変換するseq2seqモデルを学習する。続いて、質問文から得られたグラフと画像より、答えを導くモデルを学習。

グラフ上で答えの導出を行うため、ドメインに依存せずにタスクを解くことが可能となった

数式がなくて読みにくい

このページで利用されている画像は論文から引用しています．