summarized by : Ryuichi Nakahara
Sauradip Nag; Xiatian Zhu; Yi-Zhe Song; Tao Xiang
動画に対して文章で指定した動作が存在するフレームを検出してくれるモデル。
ビデオにおける動作マスクと時間検出を同時に行う事で、プロンプトに対応するビデオフレームを検出するモデルを構築。
これまでの研究は2段階だったが動作マスクと時間検出を並列させて1段階にした点が新規性。
THUMOS14、 ActivityNet v1.3で良好な結果