Answer Them All! Toward Universal Visual Question Answering Models

#128

summarized by : Yasuhide Miura

Robik Shrestha, Kushal Kafle, Christopher Kanan

Visual Question Answering(VQA)のタスクを「Image understanding」と「Reasoning」の2種に分け、既存モデルを両タスクで検証。また両タスクを精度良く解けるUniversalなモデルとしてRAMENモデルを提案

VQAを2種に分け、既存のSOTAモデルを両タスクで解き、両タスクを高精度で解くことはできないことを実験で確認(入力する特徴量は全て揃えて実験)。 Image understandingとReasoningの知見をもとにUniversalなモデル「RAMEN」モデルを新たに提案した

8種のVQAデータセット、5種のSOTAモデルを使って実験し、提案手法が各タスクの結果の平均値でトップ

既存モデルの検証を横断的なデータセットで検証しているところ

このページで利用されている画像は論文から引用しています．