Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality

#103

summarized by : QIUYUE

Tristan Thrush; Ryan Jiang; Max Bartolo; Amanpreet Singh; Adina Williams; Douwe Kiela; Candace Ross

どんな論文か？

大規模Vision and Language (VandL)事前学習などが劇的に発展してきた一方、Reasoning能力（推理など）の検討が不足している。VandL系のモデルのVisio-linguistic Compositional Reasoning を評価するためのデータセットを提案。２枚画像ペアと単語が一緒だが単語の配列が異なるようなデータセットを提案し、網羅的に既存法の性能を評価した。

新規性

言語と視覚のCompositional Reasoningのための新たなタスクWinogroundを提案。既存データセット（Winograd Challenge等）と比べ、Winogroundでは単語が同じ、単語の順序が異なる際の検討を行なっている。また、大量な既存手法をBenchmarkし、Compositional Reasoningに対してまだまだ検討する余地があることを明らかにした。

結果

提案データセットにおいて、あらゆる他のタスクで成功を収めた既存手法を評価した。その結果、全てのモデルが人間の精度との差が大きく、Changeレベルの結果しか得られなかった。このような結果から、今後さらにCompositional Reasoningを検討すべきであると示した。

その他（なぜ通ったか？等）

あらゆるVisual Reasoning能力に関しての検討が必要です。単語順番に対して、ロバストになるように、NLP側の検討はどうなっているのか？

このページで利用されている画像は論文から引用しています．