Tracking Objects As Pixel-Wise Distributions

#46

summarized by : Masanori YANO

Zelin Zhao; Ze Wu; Yueqing Zhuang; Boxun Li; Jiaya Jia

どんな論文か？

複数オブジェクトのトラッキング(MOT)で、ピクセル単位のオブジェクトの分布を推定して追跡を行うTransformerベースの手法。

新規性

ピクセル単位で、動画フレームと同じサイズのオブジェクトの分布を推定し、カルマンフィルタとハンガリアンマッチングにより推定結果を統合したトラックを求めるP3AFormerを提案した。

結果

バックボーンにResNet-50とSwin TransformerのSwin-Bを使用し、Deformable DETRのデコーダとFlowNetでピクセル単位の推定を行う条件設定で、MOT17とMOT20とKITTIによる精度の比較評価を行い、従来手法を上回る結果。

その他（なぜ通ったか？等）

Transformerの表現力を活かしたアプローチを提案し、追跡性能も高いため通ったと考えられる。Detectron2ベースの実装( https://github.com/dvlab-research/ECCV22-P3AFormer-Tracking-Objects-as-Pixel-wise-Distributions )が公開されている。

このページで利用されている画像は論文から引用しています．