#28
summarized by : Tasuku KINJO
Explicit Knowledge Incorporation for Visual Reasoning

どんな論文か?

Visual Question Answeringタスクのこれまでのモデルは視覚的情報のみに頼っており、その背景を考慮していないと主張し、そのギャップを解消することを目的としている。SceneGraphsを用いる研究は多くあるが、未検出のオブジェクトや外部概念に関する問題に対処できていない。視覚情報のSceneGraphsに明示的な外部情報を組み込むKI-Netを提案。
placeholder

新規性

VQAタスクに対して、視覚情報から作成された知識で構成されるグラフと、3つのknoledge bases(ConceptNet ,WodNet,Visual Genome)を基に作成された外部知識で構成されるグラフとを明示的に結合し、推論を実行し正解にあわせて学習をグラフの最適化を行っていく。

結果

画像には写っていない背景知識(ex.料理の原材料)が必要なVQAの問題を解答できるようになり性能が向上していることが示され、GQA データセットおよびVQAv2データセットで SoTAを達成。

その他(なぜ通ったか?等)

画像から得られる限られた情報に対して、別のチャネルから得られた情報をうまく結合し、画像のみでは推論できなかったQAを効果的に推論している