Zero-Shot Temporal Action Detection via Vision-Language Prompting

#325

summarized by : Ryuichi Nakahara

Sauradip Nag; Xiatian Zhu; Yi-Zhe Song; Tao Xiang

言語による動画の動作検索のゼロショット学習モデル

動画に対して文章で指定した動作が存在するフレームを検出してくれるモデル。ビデオにおける動作マスクと時間検出を同時に行う事で、プロンプトに対応するビデオフレームを検出するモデルを構築。これまでの研究は2段階だったが動作マスクと時間検出を並列させて1段階にした点が新規性。

THUMOS14、 ActivityNet v1.3で良好な結果

このページで利用されている画像は論文から引用しています．