#90
summarized by : Yue Qiu
VQA-LOL: Visual Question Answering under the Lens of Logic

どんな論文か?

従来のSOTAなVQAモデルは高い精度で既存データセットを完成できるが,Logical composition(例:否定,連係など)の質問に対して弱い.この論文2つのVQA補充データセットを提案し、従来のVQAモデルのLogical composition能力を測った.従来のLogical能力不足に対して,新しい手法とロスを提案し,有効的に性能を維持したままLogical能力を向上できた.
placeholder

新規性

①VQAモデルのLogical能力に対して網羅的評価を行った;②新しいVQAデータセットのAugmentation手法を提案し,従来のVQAデータセットを拡張し,Logical能力を評価可能にした;③新しいVQAモデルLOL-VQAを提案し,Logic-attentionモジュールにより質問に含まれるLogicを理解可能にした;④Logic向上のためのロス関数 を提案した.

結果

①従来のVQAモデルのLogical能力の評価実験により,従来の手法は高いVQA精度を得られるが,Logic質問に関してかなり精度落ちることを確認した;②提案のモデルがVQAの精度を保ちながら,Logical compositions能力を大幅に改善できた.

その他(なぜ通ったか?等)

従来のVQA手法はQuestionに対してのConsistencyやLogicalなどの面に不足している.この研究は特にこれらをターゲットしている.論文のアイデアがシンプルで実験と提案モデルの完成度も高い.