#60
summarized by : Kazuki Omi
TubeDETR: Spatio-Temporal Video Grounding With Transformers

どんな論文か?

与えられたテキストが該当する動画内のTube(時間方向に伸びたbbox)を予測するエンコーダーデコーダー型のネットワークの提案.エンコーダーではテキスト表現と視覚表現との相互作用をモデル化し,デコーダーでは時間的相互作用をモデル化している.
placeholder

新規性

エンコーダーでは2ストリーム用意しslowのみでテキストとの相互作用をモデル化し,後にfastと融合することで計算量を抑えつつ時空間情報を失わずにテキスト特徴量を考慮した.またデコーダーではフレーム毎に用意したクエリ𝑞𝑡がtemporal self-attentionとエンコーダーのtフレーム目の出力F(v,s)[t]を取り込むことを繰り返すことで,少ない計算量で時間的な相互作用を考慮した.

結果

VidSTGとHC-STVGという2つのベンチマークにおいて最先端の手法を凌駕する性能

その他(なぜ通ったか?等)

https://github.com/antoyang/TubeDETR Space-time Decoderの有効性と、性能とメモリのトレードオフの観点からVideo-Text Encoderの利点を実験的に証明