TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval

#162

summarized by : Keisuke Kamahori

Jie Lei, Licheng Yu, Tamara L. Berg, Mohit Bansal

Video Corpus Moment Retrieval (複数の動画中から自然言語のクエリに適合する場面を抽出するタスク)のための新たなデータセット TVR を作成し、それを用いた新手法 XML を提案した。

TVR には映像だけでなく字幕などの言語情報も含まれ、それらに正確なタイムスタンプが付けられている。XML には、クエリに合う場面の開始時間と終了時間を検出するために1次元畳み込み手法が使われている。

TVR のクエリの文章は他のデータセットに比べ多様で、多くの動作を含んでいる。XML はベースライン手法よりも高い性能を示した。

https://tvr.cs.unc.edu/

このページで利用されている画像は論文から引用しています．