Tencent-MVSE: A Large-Scale Benchmark Dataset for Multi-Modal Video Similarity Evaluation

#40

summarized by : Hirokatsu Kataoka

Zhaoyang Zeng; Yongsheng Luo; Zhenhua Liu; Fengyun Rao; Dian Li; Weidong Guo; Zhen Wen

動画検索（Video Similarity Evaluation）のための大規模動画データセットTencent-MVSEの提案。動画・言語のモダリティや教師が割り振られている。言語は中国語タイトルや自動されたテキストが含まれる。

マルチモーダル動画検索の文脈において、データセットと共にMulti-modal Transformerのベースラインを提供したこと。Unpaired Dataにおける事前学習も有効であることを示した。

マルチモーダルの認識に関するベースラインを構築した。例として、動画のみでは0.60だった精度もタイトル・生成テキスト・タグ・カテゴリを用いると0.77~0.78まで向上した。CLIP特徴やMasked Language Modeling（MLM）も有効であることを示した。

複数のモダリティは教師なしや自動生成においても動画認識の助けになるとした結果は面白い。言語モデルや音声入力が一部では人間の代替になるレベルまで到達しているとも見ることができる。

このページで利用されている画像は論文から引用しています．