- …
- …
#128
summarized by : Yasuhide Miura
どんな論文か?
Visual Question Answering(VQA)のタスクを「Image understanding」と「Reasoning」の2種に分け、既存モデルを両タスクで検証。また両タスクを精度良く解けるUniversalなモデルとしてRAMENモデルを提案
新規性
VQAを2種に分け、既存のSOTAモデルを両タスクで解き、両タスクを高精度で解くことはできないことを実験で確認(入力する特徴量は全て揃えて実験)。
Image understandingとReasoningの知見をもとにUniversalなモデル「RAMEN」モデルを新たに提案した
結果
8種のVQAデータセット、5種のSOTAモデルを使って実験し、提案手法が各タスクの結果の平均値でトップ
その他(なぜ通ったか?等)
既存モデルの検証を横断的なデータセットで検証しているところ
- …
- …