#374
summarized by : Seitaro Shinagawa
On the General Value of Evidence, and Bilingual Scene-Text Visual Question Answering

どんな論文か?

シーン中のテキストが回答となるVQAタスクを行う新しいデータセットEST-VQAを提案した。
placeholder

新規性

一般的なVQAと異なり、1.回答の根拠となるテキストのbounding box予測タスクが追加される2.英語と中国語の2言語タスクという特徴がある。これらの特徴により、VQAタスクとして実用的であるだけでなく、データセットのバイアスを低減しVQAモデルの汎化性をより正しく評価・比較できるようにした。このタスクに合わせた評価指標(EvE)も新たに提案した。

結果

一般のVQAモデルよりも、根拠となるテキストの位置を予測する提案モデルの方が優位な結果となった。

その他(なぜ通ったか?等)