- …
- …
#178
summarized by : Yue Qiu
どんな論文か?
Vision and Languageタスク(e.g., VQA, EQA)由来モデルがデータセットのバイアスを探索する問題点が指摘されてきた.これに対して,データセットからcounterfactualな画像・質問をサンプリングし、学習プロセスに導入することにより,モデルを学習させ,実験でいくつかのタスクで汎化性能の向上ができた.
新規性
Vision and LanguageのようなMulti-modal tasksで通用できるcounterfactual causal reasoningを利用した学習セットからのAlternativesをsamplingし、汎化性能を向上できる学習手法を提案.汎化性能の追求及びcounterfactual causal reasoningなどがVision and Languageにおいて新規.
結果
提案のCounterfactual training alternativesを導入し,いくつかの従来のVision and Languageタスクにおいて性能向上ができた(e.g., VQA, EQA).VQA-CPデータセットで+2%の精度向上を達成し、EQAにおいてSOTAな手法より+2%の性能向上を得た.
その他(なぜ通ったか?等)
VQA等のLanguage and Visionタスクに従来汎化性能が重視すべきで,汎化性能を向上する手法が望ましい.提案のCounterfactual exogenous intervention variableが汎化性能を向上できる理論的な面を式をもって説明した.
- …
- …