Visual Question Answering on Image Sets

#75

summarized by : Yue Qiu

Ankan Bansal, Yuting Zhang, Rama Chellappa

どんな論文か？

従来のVQAは1枚のRGB画像から行う．この研究では複数枚のRGB画像からQAを行うデータセットISVQAと手法を提案．提案のデータセットは室内と室外のScene画像から構成され，Human-annoatedなQAペアを設けられている．提案のデータセットに高い精度を得るために，シーンに対しての理解が必要となる．

新規性

①Single-Image VQA問題設定をMulti-Imageにした（この点に関しては新規性が問われる); ②大規模なリアル画像を持ったVQAデータセットを提案。(室内シーン：91,479 human-annotate Question-answer pairs, 48,138 image sets；室外シーン：49,617 QA pairs, 12, 746 image sets);

結果

複数の従来手法を実装し，Bestモデル(61.58% on Gibson)がHuman精度(88.80% on Gibson)と大差を引いている．このデータセットは既存手法に対してまだChallengeである．

その他（なぜ通ったか？等）

Single-view VQAタスクの実用性が制限される．提案手法は従来のSingle-view VQAより実用性が高い．

このページで利用されている画像は論文から引用しています．