#235
summarized by : QIUYUE
REX: Reasoning-Aware and Grounded Explanation

どんな論文か?

近年のVQA手法は高精度を得られるようになったが、解釈性に関しての検討が足りない。そのため、手法がデータセットのバイアスを学習してしまう傾向がある。上記の問題点を対応するために、画像とテキストを密に対応つけながら段階的に推理を行う必要があると主張。大規模explanationsがアノテーションされているデータセットと新たなNMN系のVisual Reasoning手法も提案。
placeholder

新規性

まず、Explainable Vision and Languageのための、新たな大規模Multi-modal Explanationsがつけたデータセットを提案。また、明示的に画像とテキストを段階的にペアワイズし、Step-byーstepで質問を解いていく(Function Programベース)手法を提案。提案手法が特にExplainabilityにおいて既存手法を大幅に上回った。

結果

GQAや提案データセットにおいて 提案手法が高精度かつ高いExplainabilityを実現できた。また、Ablations実験を通して提案手法がMulti-task LearningとTransfer Learningにおいての有用性も示した。

その他(なぜ通ったか?等)

大規模Visual Reasoningデータセットを構築したい。Explainabilityのための追加アノテーションと大規模Vision and Languageの事前学習の組み合わせてすごいものができそう。今年で、Explainable VQAの研究が多い印象がある。