#178
summarized by : Yue Qiu
Counterfactual Vision and Language Learning

どんな論文か?

Vision and Languageタスク(e.g., VQA, EQA)由来モデルがデータセットのバイアスを探索する問題点が指摘されてきた.これに対して,データセットからcounterfactualな画像・質問をサンプリングし、学習プロセスに導入することにより,モデルを学習させ,実験でいくつかのタスクで汎化性能の向上ができた.
placeholder

新規性

Vision and LanguageのようなMulti-modal tasksで通用できるcounterfactual causal reasoningを利用した学習セットからのAlternativesをsamplingし、汎化性能を向上できる学習手法を提案.汎化性能の追求及びcounterfactual causal reasoningなどがVision and Languageにおいて新規.

結果

提案のCounterfactual training alternativesを導入し,いくつかの従来のVision and Languageタスクにおいて性能向上ができた(e.g., VQA, EQA).VQA-CPデータセットで+2%の精度向上を達成し、EQAにおいてSOTAな手法より+2%の性能向上を得た.

その他(なぜ通ったか?等)

VQA等のLanguage and Visionタスクに従来汎化性能が重視すべきで,汎化性能を向上する手法が望ましい.提案のCounterfactual exogenous intervention variableが汎化性能を向上できる理論的な面を式をもって説明した.