#165
summarized by : Shintaro Yamamoto
Counterfactual Samples Synthesizing for Robust Visual Question Answering

どんな論文か?

VQAモデルには、画像を参照せずに質問文のみから答えを予測してしまう、画像中の誤った領域を判断根拠としてしまうという問題が存在する。これらの問題を解決するための学習データ作成手法を提案した。
placeholder

新規性

画像もしくは質問文に対して、物体や単語が回答に重要であるかのスコアを算出する。重要度が高い物体及び単語をマスクすることで、新たな学習データを作成する手法を提案した。

結果

4つのVQAモデルいずれにおいても、提案手法を適用することで精度が向上することが確認された。

その他(なぜ通ったか?等)

シンプルなアイデアかつ、あらゆるモデルに適用可能な手法