#103
summarized by : QIUYUE
Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality

どんな論文か?

大規模Vision and Language (VandL)事前学習などが劇的に発展してきた一方、Reasoning能力(推理など)の検討が不足している。VandL系のモデルのVisio-linguistic Compositional Reasoning を評価するためのデータセットを提案。2枚画像ペアと単語が一緒だが単語の配列が異なるようなデータセットを提案し、網羅的に既存法の性能を評価した。
placeholder

新規性

言語と視覚のCompositional Reasoningのための新たなタスクWinogroundを提案。既存データセット(Winograd Challenge等)と比べ、Winogroundでは単語が同じ、単語の順序が異なる際の検討を行なっている。また、大量な既存手法をBenchmarkし、Compositional Reasoningに対してまだまだ検討する余地があることを明らかにした。

結果

提案データセットにおいて、あらゆる他のタスクで成功を収めた既存手法を評価した。その結果、全てのモデルが人間の精度との差が大きく、Changeレベルの結果しか得られなかった。このような結果から、今後さらにCompositional Reasoningを検討すべきであると示した。

その他(なぜ通ったか?等)

あらゆるVisual Reasoning能力に関しての検討が必要です。単語順番に対して、ロバストになるように、NLP側の検討はどうなっているのか?