#40
summarized by : Hirokatsu Kataoka
Tencent-MVSE: A Large-Scale Benchmark Dataset for Multi-Modal Video Similarity Evaluation

どんな論文か?

動画検索(Video Similarity Evaluation)のための大規模動画データセットTencent-MVSEの提案。動画・言語のモダリティや教師が割り振られている。言語は中国語タイトルや自動されたテキストが含まれる。
placeholder

新規性

マルチモーダル動画検索の文脈において、データセットと共にMulti-modal Transformerのベースラインを提供したこと。Unpaired Dataにおける事前学習も有効であることを示した。

結果

マルチモーダルの認識に関するベースラインを構築した。例として、動画のみでは0.60だった精度もタイトル・生成テキスト・タグ・カテゴリを用いると0.77~0.78まで向上した。CLIP特徴やMasked Language Modeling(MLM)も有効であることを示した。

その他(なぜ通ったか?等)

複数のモダリティは教師なしや自動生成においても動画認識の助けになるとした結果は面白い。言語モデルや音声入力が一部では人間の代替になるレベルまで到達しているとも見ることができる。