New Datasets and Models for Contextual Reasoning in Visual Dialog

#13

summarized by : Ryosuke Oshima

Yifeng Zhang; Ming Jiang; Qi Zhao

どんな論文か？

Visual aware Dialogue（視覚情報を交えた対話）に関する、新しいデータセットの提案とそれを解くための手法の提案。

新規性

既存のVisual aware Dialogueのデータセットの一つであるVisual Dialogue datasetは、対話の枠組みでの質問応答であるに、単純なVQAモデルである程度解けるようなデータになっていた。そこで、きちんと文脈を捉えないと解けないようなデータセットを2つ（CLEVR-VD, GQA-VD）提案した。また、その文脈をきちんと捉えることができるモデルの提案。

結果

提案されたモデルは、既存手法に比べてCLEVR-VD, GQA-VDにおいて最高精度 & 説明性のあるモデルとなった。

その他（なぜ通ったか？等）

Visual Dialogue界隈では、一部データセットが文脈が必要ないものになっているという問題点はかなり指摘されていて、その問題に対して解決するデータセットを提案した点。

このページで利用されている画像は論文から引用しています．