- …
- …
#66
summarized by : Chihiro Nakatani(中谷 千洋)
どんな論文か?
動画検索タスクにおいて,任意のモダリティを用いることに主眼を置いた論文.任意のモダリティの組み合わせ (e.g., 動画と音声,動画とテキスト) において transformer で得た特徴量を contrastive loss で学習する.zero-shot video retrieval, zero-shot video action localization のタスクで SOTA を達成.
新規性
1. モダリティ同士の関係を抽出するために transformer を用いることで任意のモダリティ,任意の長さをトークンを扱うことができる手法を提案した.
2.提案した combinatorial contrastive loss により,入力モダリティのすべての組み合わせについてを学習している.
結果
(1)Zero-shot text-to-video retrieval
(2)Text-to-video retrieval
(1, 2) で他手法を上回る性能を達成した.
(1) ではFrozenInTime,CLIP4CLIP の精度は上回っていないが,setups が異なる.
評価用データセットは YouCook2, MSR-VTT.
様々なモダリティでアブレーションされている.
その他(なぜ通ったか?等)
(この領域に詳しくないため半分想像です.)
・任意のモダリティを扱える手法は非常に拡張性が高いため,高い評価が得られた.本研究で扱っている動画検索のみならず,multi-modal を扱った研究に拡張可能?
- …
- …