#66
summarized by : Chihiro Nakatani(中谷 千洋)
Everything at Once – Multi-Modal Fusion Transformer for Video Retrieval

どんな論文か?

動画検索タスクにおいて,任意のモダリティを用いることに主眼を置いた論文.任意のモダリティの組み合わせ (e.g., 動画と音声,動画とテキスト) において transformer で得た特徴量を contrastive loss で学習する.zero-shot video retrieval, zero-shot video action localization のタスクで SOTA を達成.
placeholder

新規性

1. モダリティ同士の関係を抽出するために transformer を用いることで任意のモダリティ,任意の長さをトークンを扱うことができる手法を提案した. 2.提案した combinatorial contrastive loss により,入力モダリティのすべての組み合わせについてを学習している.

結果

(1)Zero-shot text-to-video retrieval (2)Text-to-video retrieval (1, 2) で他手法を上回る性能を達成した. (1) ではFrozenInTime,CLIP4CLIP の精度は上回っていないが,setups が異なる. 評価用データセットは YouCook2, MSR-VTT. 様々なモダリティでアブレーションされている.

その他(なぜ通ったか?等)

(この領域に詳しくないため半分想像です.) ・任意のモダリティを扱える手法は非常に拡張性が高いため,高い評価が得られた.本研究で扱っている動画検索のみならず,multi-modal を扱った研究に拡張可能?