WebQA: Multihop and Multimodal QA

#345

summarized by : QIUYUE

Yingshan Chang; Mridu Narang; Hisami Suzuki; Guihong Cao; Jianfeng Gao; Yonatan Bisk

どんな論文か？

現在人間がインターネットからさまざまな知識（言語・視覚などを融合した）を認識している。将来的にAI手法も人間と類似したようにインタネット上のマルチモーダル知識を融合し認識できるようなデータセットを提案し、既存手法のベンチマークを行った。提案データセットウェブQAは人間のウェブを利用するプロセスを真似し、長い質問、複数の画像と言語を融合した情報ソース、自然的なセンテンスにより回答から構築されている。

新規性

まず、将来的にインタネット上のマルチモーダル的な知識を活用できるようなAIの実現に一歩近づけた新たなVisual Question Answering（VQA）タスクを提案。また、上記を実現するために、人間の習慣や自然的な情報検索を真似した新たなVQAデータセットも提案し、この分野の将来的な研究に良いベンチマークを提供した。

結果

提案データセットでいくつか既存のVQA手法を検証した。実験結果により、最も最近性能が良い手法でも、提案のWebQAデータセットにおいての精度が人間精度との差が大きいほとを示した。

その他（なぜ通ったか？等）

VQAのデータセットの作成コストが高いため、新規のHuman -labeledデータセットの提案でも論文通りやすい気がする。WebQAは方向的にまだまだ検討できるところが多いように感じた。

このページで利用されている画像は論文から引用しています．