Everything at Once – Multi-Modal Fusion Transformer for Video Retrieval

#66

summarized by : Chihiro Nakatani（中谷千洋）

Nina Shvetsova; Brian Chen; Andrew Rouditchenko; Samuel Thomas; Brian Kingsbury; Rogerio S. Feris; David Harwath; James Glass; Hilde Kuehne

どんな論文か？

動画検索タスクにおいて，任意のモダリティを用いることに主眼を置いた論文．任意のモダリティの組み合わせ (e.g., 動画と音声，動画とテキスト) において transformer で得た特徴量を contrastive loss で学習する．zero-shot video retrieval, zero-shot video action localization のタスクで SOTA を達成．

新規性

1. モダリティ同士の関係を抽出するために transformer を用いることで任意のモダリティ，任意の長さをトークンを扱うことができる手法を提案した．２．提案した combinatorial contrastive loss により，入力モダリティのすべての組み合わせについてを学習している．

結果

(1)Zero-shot text-to-video retrieval (2)Text-to-video retrieval (1, 2) で他手法を上回る性能を達成した． (1) ではFrozenInTime，CLIP4CLIP の精度は上回っていないが，setups が異なる. 評価用データセットは YouCook2, MSR-VTT．様々なモダリティでアブレーションされている.

その他（なぜ通ったか？等）

（この領域に詳しくないため半分想像です．）・任意のモダリティを扱える手法は非常に拡張性が高いため，高い評価が得られた．本研究で扱っている動画検索のみならず，multi-modal を扱った研究に拡張可能?

このページで利用されている画像は論文から引用しています．