#345
summarized by : QIUYUE
WebQA: Multihop and Multimodal QA

どんな論文か?

現在人間がインターネットからさまざまな知識(言語・視覚などを融合した)を認識している。将来的にAI手法も人間と類似したようにインタネット上のマルチモーダル知識を融合し認識できるようなデータセットを提案し、既存手法のベンチマークを行った。提案データセットウェブQAは人間のウェブを利用するプロセスを真似し、長い質問、複数の画像と言語を融合した情報ソース、自然的なセンテンスにより回答から構築されている。
placeholder

新規性

まず、将来的にインタネット上のマルチモーダル的な知識を活用できるようなAIの実現に一歩近づけた新たなVisual Question Answering(VQA)タスクを提案。また、上記を実現するために、人間の習慣や自然的な情報検索を真似した新たなVQAデータセットも提案し、この分野の将来的な研究に良いベンチマークを提供した。

結果

提案データセットでいくつか既存のVQA手法を検証した。実験結果により、最も最近性能が良い手法でも、提案のWebQAデータセットにおいての精度が人間精度との差が大きいほとを示した。

その他(なぜ通ったか?等)

VQAのデータセットの作成コストが高いため、新規のHuman -labeledデータセットの提案でも論文通りやすい気がする。WebQAは方向的にまだまだ検討できるところが多いように感じた。