SiamRPN++: Evolution of Siamese Visual Tracking With Very Deep Networks

#838

summarized by : Naoya Chiba

Bo Li, Wei Wu, Qiang Wang, Fangyi Zhang, Junliang Xing, Junjie Yan

どんな論文か？

Siamese NetworkによるVisual Trackingはテンプレートと探索領域の間の特徴量の相互相関を計算することでトラッキングを行う．このアプローチではResNetなどの20層を超えるDeepなモデルを用いることができていなかったが，本研究ではResNet-drivenなモデルの学習に成功した．また，さらに高精度で軽量なモデルも提案している．

新規性

Deepなモデルの利用が困難であった原因（Samplingの際に生じるCenter BiasとPaddingの組み合わせと，RPNがクラス分類と回帰で異なる特徴量を必要としていること）を示し，これらを考慮したLayer-wise Aggregation （浅い層で相関を計算）とDepthwise Cross Correlation（チャンネルごとに相関を計算）を用いた新たなモデルを提案．

結果

ImageNetでPre-trainしたモデルを利用．COCO，ImageNet DET，ImageNet VID，Youtube-BoundingBoxesで学習．OTB2015，VOT2018，UAV123，VOT2018-LT，LaSOT，TrackingNetで評価．ほとんどの評価指標でSOTAを達成．Ablation Studyについても記述．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．