Maintaining Reasoning Consistency in Compositional Visual Question Answering

#184

summarized by : QIUYUE

Chenchen Jing; Yunde Jia; Yuwei Wu; Xinyu Liu; Qi Wu

どんな論文か？

既存のVQA手法は複雑なCompositional問題で高い性能を示したが、質問を構成するサブ質問に対しての精度・一致性が低い。ここで、質問とサブ質問両方同時に一致した解答ができるような手法を提案し、人間のような質問を解析するベースにVQAを可能にした。具体的に、提案手法は質問をサブ質問に解析し（ここで外部ツールを使った）、質問とサブ質問の一致性を考慮したGraphNNベースとなる。

新規性

まず、VQA手法の一致性に問題があることは従来広く指摘されているが、それに関しての検討が少ない。ここで、あらためて、一致性を質問及びそれを構成するサブ質問を回答する際に、一致した回答が得られるかどうか、というところから定義・評価した。さらに、上記のような一致性が高い新規な手法も同時に提案した。また、実験と評価するために、GQAデータセットの質問に対してSub質問を追加した。

結果

提案手法が提案のGQA-Subデータセットで高い一致性を示した。更に、GQAデータセットにおいても高精度を達成。

その他（なぜ通ったか？等）

VQAタスクで、Question回答する際の一致性に関して、QuestionをSub-questionsに解析して分析を行っている。CVPR2022論文Measuring Compositional Consistency for Video Question Answering（Video QAでSub-questions Consistencyの検討）と類似度が高い。

このページで利用されている画像は論文から引用しています．