Violin: A Large-Scale Dataset for Video-and-Language Inference

#318

summarized by : Shintaro Yamamoto

Jingzhou Liu, Wenhu Chen, Yu Cheng, Zhe Gan, Licheng Yu, Yiming Yang, Jingjing Liu

Vision and Language研究の多くは、画像とテキストのペアを扱っている。新たなVision and Languageのタスクとして、動画と文章の内容が合致しているか矛盾しているかを判定するVideo-and-Language Inference(VIOLIN)を提案した。

VIOLINのためのデータセットをクラウドソーシングによって構築した。クラウドワーカーには動画を見てもらい、動画のクリップがどこかを指定する、動画クリップに対して正しい文章記述と誤った文章記述を入力してもらう、という2つのタスクを与えた。

新しいタスクの提案なので、画像とテキストのEncoderに関して様々なものを試した結果が提供されている。

このページで利用されている画像は論文から引用しています．