#33
summarized by : Shintaro Yamamoto
Reducing Language Biases in Visual Question Answering with Visually-Grounded Question Encoder

どんな論文か?

VQAモデルの欠点として,画像を参照せずに質問のみから答えを導いてしまうバイアスが挙げられている(例Q:バナナの色は?A:黄色).その原因として質問と画像を独立して処理していると指摘し,質問文のEncoderに文章だけでなく画像を与える手法を提案.
placeholder

新規性

VQAの質問文を処理するモジュールとして,Visually-Grounded Question Encoder (VGQE)を提案.VGQEでは,単語のembeddingを直接RNNに与えるのではなく,画像特徴から得られるアテンション計算を行うことで単語embeddingを更新したものを入力していく.

結果

VQA-CPv2においてSOTAを更新.また,VQAv2において従来研究ではバイアス除去により低下していたモデル性能を引き起こさず,精度を維持することに成功.

その他(なぜ通ったか?等)