TubeDETR: Spatio-Temporal Video Grounding With Transformers

#60

summarized by : Kazuki Omi

Antoine Yang; Antoine Miech; Josef Sivic; Ivan Laptev; Cordelia Schmid

どんな論文か？

与えられたテキストが該当する動画内のTube(時間方向に伸びたbbox)を予測するエンコーダーデコーダー型のネットワークの提案．エンコーダーではテキスト表現と視覚表現との相互作用をモデル化し，デコーダーでは時間的相互作用をモデル化している．

新規性

エンコーダーでは2ストリーム用意しslowのみでテキストとの相互作用をモデル化し,後にfastと融合することで計算量を抑えつつ時空間情報を失わずにテキスト特徴量を考慮した．またデコーダーではフレーム毎に用意したクエリ𝑞𝑡がtemporal self-attentionとエンコーダーのtフレーム目の出力F(v,s)[t]を取り込むことを繰り返すことで，少ない計算量で時間的な相互作用を考慮した．

結果

VidSTGとHC-STVGという2つのベンチマークにおいて最先端の手法を凌駕する性能

その他（なぜ通ったか？等）

https://github.com/antoyang/TubeDETR Space-time Decoderの有効性と、性能とメモリのトレードオフの観点からVideo-Text Encoderの利点を実験的に証明

このページで利用されている画像は論文から引用しています．