#932
summarized by : Katsuya Shimabukuro
Visual Question Answering as Reading Comprehension

どんな論文か?

画像に対する質問に応答するVisual Question Answeringのタスクで、機械読解のタスクに落とし込むことにより、特に外部知識を参照するようなケースでもシンプルなモデルで問題にアプローチする手法を提案
placeholder

新規性

入力画像をまず画像に何が写っているかの説明文に変換することにより、機械読解モデルを流用してVQAの問題に適用した。具体的には、画像から物体検出のラベルを生成し、それらをつなぎ合わせることで画像の説明文とする。

結果

FVQAやVisual Genomeの二つの自由回答形式のデータセットと、Visual7Wの選択式回答のデータセットで、既存手法と同等もしくは数ポイント劣る結果を示した。

その他(なぜ通ったか?等)