- …
- …
#536
summarized by : Ryuichi Nakahara
新規性
画像と言語を同じ潜在空間に落とし込んでマッチングする従来法は、言語空間と比べて潜在空間が小さいことが問題であった。そこで画像から抜き出せる情報を全て文章にかえて文章同士のマッチングでOK-VQAタスクを解くという新しいアプローチ。画像・言語ではなく、言語・言語の問題に変換する。
結果
Transform-RetrieveGenerate(TRiG)フレームワークを提案。
OK-VQAデータセットにおいてよい結果
その他(なぜ通ったか?等)
GitHubに公開
https://github.com/wjn922/ReferFormer
画像の問題なのに画像を全く介在させない構造に落とし込んだのが面白い。潜在空間での演算よりも、文章を文章として扱ったほうが性能が良いというのは(本当かどうかは不明だが)示唆に富んでいる。
- …
- …