Separating Skills and Concepts for Novel Visual Question Answering

#84

summarized by : Shintaro Yamamoto

Spencer Whitehead, Hui Wu, Heng Ji, Rogerio Feris, Kate Saenko

どんな論文か？

VQAの一般化を目指し，必要な要素としてskillとconceptを導入．Skillとは，移っている物体の色や数など質問で聞かれている概念を指す．Conceptとは，質問の対象となる物体のことを指す．Skillとconceptの概念を取得する学習方法を提案することで，学習時に見なかった組み合わせに回答することを可能とする．

新規性

通常のVQAの学習に加えて，skillとconceptを学習する損失関数を導入．Skillやconceptが同じサンプルをポジティブとして扱うことで，contrastive学習を行う．その際，skillとconceptの学習にはVQAタスクの正解ラベルが存在しないデータも利用することができる．

結果

新たな評価方法として，skillとconceptの新しい組み合わせに対する性能，学習時にVQAタスクに対する正解を見ていないconceptに対する性能の2つを導入．VQA v2で実験を行い，提案手法がどちらの評価方法においても性能が向上することを確認した．

その他（なぜ通ったか？等）

発表動画：https://www.youtube.com/watch?v=X54yGunkoT0

このページで利用されている画像は論文から引用しています．