Counterfactual Vision and Language Learning

#178

summarized by : Yue Qiu

Ehsan Abbasnejad, Damien Teney, Amin Parvaneh, Javen Shi, Anton van den Hengel

どんな論文か？

Vision and Languageタスク(e.g., VQA, EQA)由来モデルがデータセットのバイアスを探索する問題点が指摘されてきた．これに対して，データセットからcounterfactualな画像・質問をサンプリングし、学習プロセスに導入することにより，モデルを学習させ，実験でいくつかのタスクで汎化性能の向上ができた．

新規性

Vision and LanguageのようなMulti-modal tasksで通用できるcounterfactual causal reasoningを利用した学習セットからのAlternativesをsamplingし、汎化性能を向上できる学習手法を提案．汎化性能の追求及びcounterfactual causal reasoningなどがVision and Languageにおいて新規．

結果

提案のCounterfactual training alternativesを導入し，いくつかの従来のVision and Languageタスクにおいて性能向上ができた(e.g., VQA, EQA)．VQA-CPデータセットで+2%の精度向上を達成し、EQAにおいてSOTAな手法より+2%の性能向上を得た．

その他（なぜ通ったか？等）

VQA等のLanguage and Visionタスクに従来汎化性能が重視すべきで，汎化性能を向上する手法が望ましい．提案のCounterfactual exogenous intervention variableが汎化性能を向上できる理論的な面を式をもって説明した．

このページで利用されている画像は論文から引用しています．