OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge

#222

summarized by : maokura

Kenneth Marino, Mohammad Rastegari, Ali Farhadi, Roozbeh Mottaghi

どんな論文か？

従来のVQAは色や個数など簡単なものが答えな質問が多い．本研究では画像のみから答えることのできない，回答に外部の知識を必要とする質問を含むOutside Knowlidge VQAデータセットの設計と，現状のモデルのOK-VQA上での性能の評価を行なった．また，ベースラインとしてWikipedia上の知識をもとに訓練するモデル(ArticleNet)を提案した．

新規性

従来のVQAデータセットと違い，色や個数など画像中から察せる質問を持たない．アノテータには，賢いロボットを騙せるような質問を考え，また答えは画像の中のものに関係しているものというような指示を出した．また，正解として多くの答えを持つような質問や他の質問者の多くがわからないものを弾いた．

結果

既存の手法をOK-VQAに対して用い，カテゴリ毎の精度で評価実験を行なったところ，VQAでSoTAのMUTANに提案したArticleNetを合わせたものの性能が平均的に最も良いという結果になった．ArticleNet単体での性能は低かった．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．