Counterfactual VQA: A Cause-Effect Look at Language Bias

#31

summarized by : Seitaro Shinagawa

Yulei Niu, Kaihua Tang, Hanwang Zhang, Zhiwu Lu, Xian-Sheng Hua, Ji-Rong Wen

Visual question answering (VQA)モデルの予測における言語のバイアスを除去する方法として、画像なしで学習したQAモデルの予測分布をVQAモデルの予測分布から引き算した分布で予測を行う手法を提案。

質問と回答のペアの頻度によるバイアスを、画像無しで学習したQAモデルの出力分布で引くという簡単な方法で排除している点が新しい。

訓練時と推論時で各質問タイプに紐づく回答の分布が異なるVisual Question Answering under Changing Priors (VQA-CP)データセットにおいて、全体的に既存手法よりも良い結果が出ており、特にyes/no型の質問に強い。

コードが公開中：https://github.com/yuleiniu/cfvqa

このページで利用されている画像は論文から引用しています．