Towards VQA Models That Can Read

#496

summarized by : siida

Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, Marcus Rohrbach

どんな論文か？

Visual QA taskにおいて、テキスト情報を必要とする新たなデータセット"TextVQA"を提案する。

新規性

画像中のテキストや、さらに画像にないテキスト情報を考慮する必要のあるデータセットを提案した。また提案したデータセット用のモデルLoRRAを提案した。

結果

TextVQAによる実験において提案手法"LoRRA"は既存のVQA baselineを有意に上回った。

その他（なぜ通ったか？等）

NLPの代表的なタスクMachine TranslationやMachine Comprehensionでは、文脈情報を使用するモデルが流行している。（例：[Bawden+, NAACL-2018]）VQAにおいても文脈を利用したデータセットが必要があると、そうした最新の研究成果を反映したモデルの研究ができるので、その基準となるデータセットとベースラインモデルには非常に価値がある。

このページで利用されている画像は論文から引用しています．