- …
- …
#103
summarized by : QIUYUE
どんな論文か?
大規模Vision and Language (VandL)事前学習などが劇的に発展してきた一方、Reasoning能力(推理など)の検討が不足している。VandL系のモデルのVisio-linguistic Compositional Reasoning を評価するためのデータセットを提案。2枚画像ペアと単語が一緒だが単語の配列が異なるようなデータセットを提案し、網羅的に既存法の性能を評価した。
新規性
言語と視覚のCompositional Reasoningのための新たなタスクWinogroundを提案。既存データセット(Winograd Challenge等)と比べ、Winogroundでは単語が同じ、単語の順序が異なる際の検討を行なっている。また、大量な既存手法をBenchmarkし、Compositional Reasoningに対してまだまだ検討する余地があることを明らかにした。
結果
提案データセットにおいて、あらゆる他のタスクで成功を収めた既存手法を評価した。その結果、全てのモデルが人間の精度との差が大きく、Changeレベルの結果しか得られなかった。このような結果から、今後さらにCompositional Reasoningを検討すべきであると示した。
その他(なぜ通ったか?等)
あらゆるVisual Reasoning能力に関しての検討が必要です。単語順番に対して、ロバストになるように、NLP側の検討はどうなっているのか?
- …
- …