#150
summarized by : Tomoki Tanimura
Explicit Bias Discovery in Visual Question Answering Models

どんな論文か?

VQAのモデルが,データセット内の質問の単語と画像のペアに対する答えの統計的な傾向を学習することによって,答えを推論していることを実験的に示した論文.頻出する質問や答えの単語群と,画像の一部(Attentionが高いところ)による集合を定義し,そこから質問文をクエリとして答えを探索することでも,高い正答率で回答可能であることを示した.
placeholder

新規性

既存のVQAのモデルの振る舞いに着目し,画像と質問文と答えの相関関係などを学習することで,推論を行なっていることを示した.

結果

画像を使用せず,言語のみで推論を行なった場合でも,43%の確率で正答でき,88%の確率で妥当な答えを出力できていることがわかった.

その他(なぜ通ったか?等)

これまで提案されてきたVQAのモデルに対して,どのような振る舞いをしているのか,何を学習しているのかを分析し示した点.