#356
summarized by : abeT
ECLIPSE: Efficient Long-Range Video Retrieval Using Sight and Sound

どんな論文か?

現代の動画像検索システムは、主に非常に短い動画像(例えば、長さ5-15秒)を対象として設計されており、数分から数時間にも及ぶ複雑な人間の動作を示す動画セグメントの検索ができない。そこで、本研究では、音声と映像を組み合わせ、長時間のオーディオビジュアルに特化した効率的なtext-to-video検索システムを提案する。
placeholder

新規性

CLIP をオーディオビジュアルに適応させた EclipSE を提案し、ビデオとオーディオの相補的なキューを利用して長時間ビデオの検索を行う点。さらに、長距離ビデオのみのアプローチと比較して、我々のオーディオビジュアルフレームワークは、より少ない計算コストでより良いビデオ検索結果を導くことを示した点。

結果

本フレームワークは、長い動画から密に抽出された多数のフレームを処理する代わりに、密な音声を伴う疎にサンプリングされた動画フレームを操作することにより、音声と動画のキューを補完する。本手法は、(i)柔軟(ii)高速(iii)メモリ効率に優れ(iv)多様な5つの長時間映像ベンチマークにおいて,SOTAの結果を得た。

その他(なぜ通ったか?等)

GitHub: https://github.com/GenjiB/ECLIPSE