#318
summarized by : Shintaro Yamamoto
Violin: A Large-Scale Dataset for Video-and-Language Inference

どんな論文か?

Vision and Language研究の多くは、画像とテキストのペアを扱っている。新たなVision and Languageのタスクとして、動画と文章の内容が合致しているか矛盾しているかを判定するVideo-and-Language Inference(VIOLIN)を提案した。

新規性

VIOLINのためのデータセットをクラウドソーシングによって構築した。クラウドワーカーには動画を見てもらい、動画のクリップがどこかを指定する、動画クリップに対して正しい文章記述と誤った文章記述を入力してもらう、という2つのタスクを与えた。

結果

新しいタスクの提案なので、画像とテキストのEncoderに関して様々なものを試した結果が提供されている。

その他(なぜ通ったか?等)