#69
summarized by : Ryuichi Nakahara
X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval

どんな論文か?

アテンションを用いた高性能なテキスト・動画検索。
placeholder

新規性

CLIPを用いてテキストとビデオフレームを同じ潜在空間に変換し、アテンションを用いることで、テキストと動画内のフレームを直接検索。 動画全体ではなく動画内の個々のフレームに対して検索した点が新規。

結果

3つのデータセットでSOTA. MSR-VTT 、MSVD、LSMDC 。

その他(なぜ通ったか?等)

プログラム公開(しかしリンクが切れている) バックボーンはCLIP。基盤モデル強し。 抄録にCLIPの記載がない。それは言及するべき。