#536
summarized by : Ryuichi Nakahara
Transform-Retrieve-Generate: Natural Language-Centric Outside-Knowledge Visual Question Answering

どんな論文か?

OK-VQAタスクの新しいモデル。画像の情報を全て文章に変換し、言語空間において知識検索と質問応答を行う
placeholder

新規性

画像と言語を同じ潜在空間に落とし込んでマッチングする従来法は、言語空間と比べて潜在空間が小さいことが問題であった。そこで画像から抜き出せる情報を全て文章にかえて文章同士のマッチングでOK-VQAタスクを解くという新しいアプローチ。画像・言語ではなく、言語・言語の問題に変換する。

結果

Transform-RetrieveGenerate(TRiG)フレームワークを提案。 OK-VQAデータセットにおいてよい結果

その他(なぜ通ったか?等)

GitHubに公開 https://github.com/wjn922/ReferFormer 画像の問題なのに画像を全く介在させない構造に落とし込んだのが面白い。潜在空間での演算よりも、文章を文章として扱ったほうが性能が良いというのは(本当かどうかは不明だが)示唆に富んでいる。