#75
summarized by : Yue Qiu
Visual Question Answering on Image Sets

どんな論文か?

従来のVQAは1枚のRGB画像から行う.この研究では複数枚のRGB画像からQAを行うデータセットISVQAと手法を提案.提案のデータセットは室内と室外のScene画像から構成され,Human-annoatedなQAペアを設けられている.提案のデータセットに高い精度を得るために,シーンに対しての理解が必要となる.
placeholder

新規性

①Single-Image VQA問題設定をMulti-Imageにした(この点に関しては新規性が問われる); ②大規模なリアル画像を持ったVQAデータセットを提案。(室内シーン:91,479 human-annotate Question-answer pairs, 48,138 image sets;室外シーン:49,617 QA pairs, 12, 746 image sets);

結果

複数の従来手法を実装し,Bestモデル(61.58% on Gibson)がHuman精度(88.80% on Gibson)と大差を引いている.このデータセットは既存手法に対してまだChallengeである.

その他(なぜ通ったか?等)

Single-view VQAタスクの実用性が制限される.提案手法は従来のSingle-view VQAより実用性が高い.