#82
summarized by : Ryuichi Nakahara
MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-Based Visual Question Answering

どんな論文か?

テキストと画像をあわせたマルチモーダル知識トリプレットを用いて、VQAタスクを解く
placeholder

新規性

マルチモーダル知識としてテキストと画像を直接つなぐトリプレット構造を作り、知識を学習するフレームワークを作り出し、VQAタスクでよい成績を出した。カワサキっぽいバイクや、ロンドンっぽい風景などの視覚的情報を学習可能な点が利点。

結果

2つのKB-VQAデータセットで高い成績 OKVQA, KRVQA

その他(なぜ通ったか?等)

GitHubにソースコード https://github.com/AndersonStra/MuKEA 視覚的知識の新しいフレームワークを作った点が評価されたと思われる