#756
summarized by : QIUYUE
GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering

どんな論文か?

従来のVQAデータセット(例VQA2.0)に強いreal-world priorsが含まれ,VQAを評価する上でBiasesの学習能力が重要となる.この文章で,visual reasoningとcompositionalを評価できるGQAを提案,Visual Genomeデータセットの画像とScene Graphから構築, サンプルごとにFunction Program付き、Biasesが低い
placeholder

新規性

従来のVQAデータセット(VQA1.0,2.0など)と比べ,質問に含まれる情報をきちんと整えている.そのため,様々なVQAの能力を評価可能(例:compositional能力).GQAデータセットはサンプルごとにScene graphとfunction program付きで,より透明でVQA回答のAccuracyだけではなく,回答プロセスの評価も将来的に可能?

結果

SOTA VQA手法がGQAにおいて全体的Accuracyが54.1% (vs. VQA2.0 70%程度).Human精度が89.3%なので,GQAデータセットはまたまたベンチマークとして用いられる.(GQA Challenge2019にも73%くらいのモデル画提案された)

その他(なぜ通ったか?等)

Stanford大学のNLPとAI研究のリーダーが第二作者(Christopher D. Manning)!GQA Challengeが2019年のCVPRのVisual Question Answering and Dialogワークショップにあげられた.