summarized by : Ryuichi Nakahara
Satya Krishna Gorti; Noël Vouitsis; Junwei Ma; Keyvan Golestan; Maksims Volkovs; Animesh Garg; Guangwei Yu
CLIPを用いてテキストとビデオフレームを同じ潜在空間に変換し、アテンションを用いることで、テキストと動画内のフレームを直接検索。
動画全体ではなく動画内の個々のフレームに対して検索した点が新規。
3つのデータセットでSOTA. MSR-VTT 、MSVD、LSMDC 。
プログラム公開(しかしリンクが切れている)
バックボーンはCLIP。基盤モデル強し。
抄録にCLIPの記載がない。それは言及するべき。