X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval

#69

summarized by : Ryuichi Nakahara

Satya Krishna Gorti; Noël Vouitsis; Junwei Ma; Keyvan Golestan; Maksims Volkovs; Animesh Garg; Guangwei Yu

アテンションを用いた高性能なテキスト・動画検索。

CLIPを用いてテキストとビデオフレームを同じ潜在空間に変換し、アテンションを用いることで、テキストと動画内のフレームを直接検索。動画全体ではなく動画内の個々のフレームに対して検索した点が新規。

3つのデータセットでSOTA. MSR-VTT 、MSVD、LSMDC 。

プログラム公開（しかしリンクが切れている）バックボーンはCLIP。基盤モデル強し。抄録にCLIPの記載がない。それは言及するべき。

このページで利用されている画像は論文から引用しています．