#128
summarized by : Yasuhide Miura
Answer Them All! Toward Universal Visual Question Answering Models

どんな論文か?

Visual Question Answering(VQA)のタスクを「Image understanding」と「Reasoning」の2種に分け、既存モデルを両タスクで検証。また両タスクを精度良く解けるUniversalなモデルとしてRAMENモデルを提案
placeholder

新規性

VQAを2種に分け、既存のSOTAモデルを両タスクで解き、両タスクを高精度で解くことはできないことを実験で確認(入力する特徴量は全て揃えて実験)。 Image understandingとReasoningの知見をもとにUniversalなモデル「RAMEN」モデルを新たに提案した

結果

8種のVQAデータセット、5種のSOTAモデルを使って実験し、提案手法が各タスクの結果の平均値でトップ

その他(なぜ通ったか?等)

既存モデルの検証を横断的なデータセットで検証しているところ