#262
summarized by : 画像ベース
DR.VIC: Decomposition and Reasoning for Video Individual Counting

どんな論文か?

既存の画像ベースPedestrian Countingが動的環境に適応しにくい。また、ビデオベースの手法は大量な学習データが必要。ここで、Trackingを使わずに、連続の画像フレームから人の検出、更新、カウントするタスク設定を提案。また、画像間の特徴的な対応関係を学習するTransformerをベースとした手法を提案。
placeholder

新規性

既存のSingleーImage Pedestrian Counting及び、Multiple Object Trackingと異なった新たなタスク設定、Video Individual Countingを提案した。提案タスクが、1フレーム目で人を検出・Countingし、次のフレームから、初期フレームとの比較・類似度評価により、Countingや人物検出の更新を行う。

結果

提案手法が画像ベースの手法より性能が高い。また、ビデオベースの手法と比べて、計算コストが大幅に削減できた。

その他(なぜ通ったか?等)