Multi-Stage Aggregated Transformer Network for Temporal Language Localization in Videos

#465

summarized by : hisaka koji

Mingxing Zhang, Yang Yang, Xinghan Chen, Yanli Ji, Xing Xu, Jingjing Li, Heng Tao Shen

言語文クエリによって、トリミングされていないビデオから特定の瞬間をローカライズするという問題に取り組んでいます

Vision and language transfomer　の導入とその上にステージ（開始、中間、終了ステージ）を計算するモジュールを導入

広範な ActivityNet CaptionsおよびTACoSデータセットを用いた大規模な実験により提案手法は、他の手法と比較して大幅に改善されたことが実証された

このページで利用されている画像は論文から引用しています．