#2
summarized by : QIU YUE
Learning Spatio-Temporal Transformer for Visual Tracking

どんな論文か?

Transformerを導入し、TrackingタスクのためのロバストなSpatio-Temporal特徴表現を学習。Search Region(目標のダイナミック変化)と目標のテンプレート領域(目標のアピアランス)をTransformer Encocoderに入力し、時系列と空間情報表現を同時に考慮.DecoderでBBOXの左上と右下の位置を予測する.
placeholder

新規性

①早い段階でTransformer構造をObject Trackingに導入;②目標領域を予測する際に、BBOXのRegressionではなく、Heat Mapの形式で出力することにより、Regressionのややこしい後処理を避けられた.

結果

・Tesla V100で30/40 FPSを達成; ・複数の短時間追跡と長時間追跡のデータセットにおいてSOTAを達成.

その他(なぜ通ったか?等)