#830
summarized by : QIUYUE
From Recognition to Cognition: Visual Commonsense Reasoning

どんな論文か?

Visual Commonsense Reasoningのためのデータセットを提案(一枚の画像,画像中のRegions,質問から回答及びその理由を選択肢から選ぶ). VCRデータセットに290KのマルチチョイスVQA問題から構成される.高質で低バイアスのデータセット構築のためのAdversarial Matchingを提案した(回答ごとに3回正解として3回不正解としてデータセットに使用).
placeholder

新規性

従来のVQAデータセット(VQA2.0, GQAなど)と比べ,認識レベルを超えた画像・言語の理解が必要となる問題設定及びデータセットセットの提案.

結果

SOTAなVQAモデルがVCRにおいて45%程度の精度を出した.(Human精度は90%+)提案のRecognition to Cognition Networks (R2C)が65%程度の精度を達成.

その他(なぜ通ったか?等)

Visual Commonsen Reasonig課題自体が難しいが現実世界では重要なので,VQAなどの発展に連れて今後は検討するべきであると思う.このデータセットが提案されたので,今後のVCR手法の発展なども相対的行いやすくなる.また,論文の図表などがきれいに仕上げられている.