VQA-LOL: Visual Question Answering under the Lens of Logic

#90

summarized by : Yue Qiu

Tejas Gokhale, Pratyay Banerjee, Chitta Baral, Yezhou Yang

どんな論文か？

従来のSOTAなVQAモデルは高い精度で既存データセットを完成できるが，Logical composition(例：否定，連係など)の質問に対して弱い．この論文2つのVQA補充データセットを提案し、従来のVQAモデルのLogical composition能力を測った．従来のLogical能力不足に対して，新しい手法とロスを提案し，有効的に性能を維持したままLogical能力を向上できた．

新規性

①VQAモデルのLogical能力に対して網羅的評価を行った；②新しいVQAデータセットのAugmentation手法を提案し，従来のVQAデータセットを拡張し，Logical能力を評価可能にした；③新しいVQAモデルLOL-VQAを提案し，Logic-attentionモジュールにより質問に含まれるLogicを理解可能にした；④Logic向上のためのロス関数を提案した．

結果

①従来のVQAモデルのLogical能力の評価実験により，従来の手法は高いVQA精度を得られるが，Logic質問に関してかなり精度落ちることを確認した；②提案のモデルがVQAの精度を保ちながら，Logical compositions能力を大幅に改善できた．

その他（なぜ通ったか？等）

従来のVQA手法はQuestionに対してのConsistencyやLogicalなどの面に不足している．この研究は特にこれらをターゲットしている．論文のアイデアがシンプルで実験と提案モデルの完成度も高い．

このページで利用されている画像は論文から引用しています．