Reducing Language Biases in Visual Question Answering with Visually-Grounded Question Encoder

#33

summarized by : Shintaro Yamamoto

Gouthaman KV, Anurag Mittal

どんな論文か？

VQAモデルの欠点として，画像を参照せずに質問のみから答えを導いてしまうバイアスが挙げられている(例Q:バナナの色は？A:黄色)．その原因として質問と画像を独立して処理していると指摘し，質問文のEncoderに文章だけでなく画像を与える手法を提案．

新規性

VQAの質問文を処理するモジュールとして，Visually-Grounded Question Encoder (VGQE)を提案．VGQEでは，単語のembeddingを直接RNNに与えるのではなく，画像特徴から得られるアテンション計算を行うことで単語embeddingを更新したものを入力していく．

結果

VQA-CPv2においてSOTAを更新．また，VQAv2において従来研究ではバイアス除去により低下していたモデル性能を引き起こさず，精度を維持することに成功．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．