#310
summarized by : Yue Qiu
Towards Causal VQA: Revealing and Reducing Spurious Correlations by Invariant and Covariant Semantic Editing

どんな論文か?

VQAの入力画像側に対してSemantic的に編集することで,VQAモデルの正しいcausal correlationsが学習されているかどうかを評価する手法を提案。さらに,画像をSemantic的に編集するData augmentation手法を提案し,従来のVQA手法に適応することで,Robust性能を向上できた.
placeholder

新規性

VQAにおいて,従来類似したQuestionに対してのロバスト性が研究され,この文章で画像をSemantic的に編集することにより,”Invariant”(画像編集しても回答が変化しない)と”Covariant”(画像編集されて回答も変化)の2種類データセット拡張する手法を提案し,モデルのCausal Reasoning能力の評価やVQA手法のRobust性の向上に貢献.

結果

提案のData augmentation手法を3種類の従来のSOTAなVQA手法に適応し,各タイプの質問、Synthetic画像、Real画像においてすべて一致した性能向上が得られた.

その他(なぜ通ったか?等)

VQAタスクに従来問題視されているデータセットのバイアスが学習されてしまい,画像と言語情報間のCausal関係が学習されていない問題について検討.