#496
summarized by : siida
Towards VQA Models That Can Read

どんな論文か?

Visual QA taskにおいて、テキスト情報を必要とする新たなデータセット"TextVQA"を提案する。
placeholder

新規性

画像中のテキストや、さらに画像にないテキスト情報を考慮する必要のあるデータセットを提案した。また提案したデータセット用のモデルLoRRAを提案した。

結果

TextVQAによる実験において提案手法"LoRRA"は既存のVQA baselineを有意に上回った。

その他(なぜ通ったか?等)

NLPの代表的なタスクMachine TranslationやMachine Comprehensionでは、文脈情報を使用するモデルが流行している。(例:[Bawden+, NAACL-2018])VQAにおいても文脈を利用したデータセットが必要があると、そうした最新の研究成果を反映したモデルの研究ができるので、その基準となるデータセットとベースラインモデルには非常に価値がある。