#205
summarized by : 福原吉博 (Yoshihiro Fukuhara)
Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking

どんな論文か?

Transformer を使用した物体追跡手法の研究. 時間的なコンテキストを考慮した物体追跡を行うために, NLPで使用される Transformer を時間情報を複数フレームに渡って転送するように改良している.
placeholder

新規性

物体追跡に Transformer を適用するために, 次の点を改良した, 1) エンコーダとデコーダを2つのブランチに分けた Siamese Network 型の構造. 2) エンコーダとデコーダの self-attention blockで weight sharing. 3) instance normを使用. 4) スリム化 (single-head attention / FC層削除).

結果

提案した Transformer を使用した構造を従来の Siamese Network または discriminative correlation filter を使用した物体追跡のパイプラインに適用し, TrackingNet, GOT-10k, LaSOT, VOT2018 などのベンチマークにおいて評価実験を行い, 既存の SoTA 手法を上回る結果を達成した.

その他(なぜ通ったか?等)

https://github.com/594422814/TransformerTrack