#325
summarized by : Ryuichi Nakahara
Zero-Shot Temporal Action Detection via Vision-Language Prompting

どんな論文か?

言語による動画の動作検索のゼロショット学習モデル
placeholder

新規性

動画に対して文章で指定した動作が存在するフレームを検出してくれるモデル。 ビデオにおける動作マスクと時間検出を同時に行う事で、プロンプトに対応するビデオフレームを検出するモデルを構築。 これまでの研究は2段階だったが動作マスクと時間検出を並列させて1段階にした点が新規性。

結果

THUMOS14、 ActivityNet v1.3で良好な結果

その他(なぜ通ったか?等)