- …
- …
#82
summarized by : Ryuichi Nakahara
新規性
マルチモーダル知識としてテキストと画像を直接つなぐトリプレット構造を作り、知識を学習するフレームワークを作り出し、VQAタスクでよい成績を出した。カワサキっぽいバイクや、ロンドンっぽい風景などの視覚的情報を学習可能な点が利点。
結果
2つのKB-VQAデータセットで高い成績
OKVQA, KRVQA
その他(なぜ通ったか?等)
GitHubにソースコード
https://github.com/AndersonStra/MuKEA
視覚的知識の新しいフレームワークを作った点が評価されたと思われる
- …
- …