summarized by : hisaka koji
Mingxing Zhang, Yang Yang, Xinghan Chen, Yanli Ji, Xing Xu, Jingjing Li, Heng Tao Shen
言語文クエリによって、トリミングされていないビデオから特定の瞬間をローカライズするという問題に取り組んでいます
Vision and language transfomer の導入とその上にステージ(開始、中間、終了ステージ)を計算するモジュールを導入
広範な ActivityNet CaptionsおよびTACoSデータセットを用いた大規模な実験により 提案手法は、他の手法と比較して大幅に改善されたことが実証された