- …
- …
#46
summarized by : Masanori YANO
新規性
ピクセル単位で、動画フレームと同じサイズのオブジェクトの分布を推定し、カルマンフィルタとハンガリアンマッチングにより推定結果を統合したトラックを求めるP3AFormerを提案した。
結果
バックボーンにResNet-50とSwin TransformerのSwin-Bを使用し、Deformable DETRのデコーダとFlowNetでピクセル単位の推定を行う条件設定で、MOT17とMOT20とKITTIによる精度の比較評価を行い、従来手法を上回る結果。
その他(なぜ通ったか?等)
Transformerの表現力を活かしたアプローチを提案し、追跡性能も高いため通ったと考えられる。Detectron2ベースの実装( https://github.com/dvlab-research/ECCV22-P3AFormer-Tracking-Objects-as-Pixel-wise-Distributions )が公開されている。
- …
- …