#465
summarized by : hisaka koji
Multi-Stage Aggregated Transformer Network for Temporal Language Localization in Videos

どんな論文か?

言語文クエリによって、トリミングされていないビデオから特定の瞬間をローカライズするという問題に取り組んでいます
placeholder

新規性

Vision and language transfomer の導入とその上にステージ(開始、中間、終了ステージ)を計算するモジュールを導入

結果

広範な ActivityNet CaptionsおよびTACoSデータセットを用いた大規模な実験により 提案手法は、他の手法と比較して大幅に改善されたことが実証された

その他(なぜ通ったか?等)