MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-Based Visual Question Answering

#82

summarized by : Ryuichi Nakahara

Yang Ding; Jing Yu; Bang Liu; Yue Hu; Mingxin Cui; Qi Wu

テキストと画像をあわせたマルチモーダル知識トリプレットを用いて、VQAタスクを解く

マルチモーダル知識としてテキストと画像を直接つなぐトリプレット構造を作り、知識を学習するフレームワークを作り出し、VQAタスクでよい成績を出した。カワサキっぽいバイクや、ロンドンっぽい風景などの視覚的情報を学習可能な点が利点。

２つのKB-VQAデータセットで高い成績 OKVQA, KRVQA

GitHubにソースコード https://github.com/AndersonStra/MuKEA 視覚的知識の新しいフレームワークを作った点が評価されたと思われる

このページで利用されている画像は論文から引用しています．