#287
summarized by : Kensho Hara
On Semantic Similarity in Video Retrieval

どんな論文か?

テキストをクエリとした動画検索では,従来テキストと動画の正解の組み合わせが1対1であるものとして扱われており,検索手法が意味的に類似したテキストが付けられている動画を検索してきても不正解として扱われていた.それが手法的にも評価的にも不適切ということで,テキストの意味的な類似性を考慮したSemantic-based Video Retrievalを提案.

新規性

従来のInstance-based Video Retrievalの欠点を示し,Semantic-based Video Retrievalという新しいタスク及び評価方法の提案.追加アノテーションのコストを避けるために,テキストの意味的な類似度には複数の機械的な計算方法を提案.

結果

MSR-VTT, YouCook2, EPIC-KITCHENSというよく用いられる3つのデータセット(テキストの意味的な類似性は手動ではなくBag-of-Wordsなどで機械的に計算)を利用してSemantic-based Video Retrievalの評価実験を実施.意味的な類似性を学習時に考慮することで性能が大きく向上した.

その他(なぜ通ったか?等)

Project Page: https://mwray.github.io/SSVR/