Combining Detection and Tracking for Human Pose Estimation in Videos

#657

summarized by : Masanori YANO

Manchen Wang, Joseph Tighe, Davide Modolo

どんな論文か？

動画から複数人の姿勢推定及びトラッキングを行うタスクを、Top-Downのアプローチで解く場合に、オクルージョンや密集した人物の姿勢推定に支障を来す問題に対し、人物を検出した結果の前後のフレームを含めて3D CNNで姿勢推定を行うことで対処する手法。

新規性

キーフレームで検出した「人物のバウンディングボックス」の範囲を、キーフレーム及び前後のフレームから切り出し、3Dに対応させた3D HRNetに入力して一連の切り出し画像に対する姿勢推定を行い、その推論結果を元のフレームに反映させるClip Tracking Networkを提案した。

結果

PoseTrack 2017及びPoseTrack 2018のデータセットで評価を行い、いずれもSOTAの結果。また、人物のDetectorにはCOCOデータセットで学習させたResNet-101のSNIPERを使用し、バックボーンをResNet-101からMobileNetV2に軽量化しても、2D CNNの手法より全体の検出性能は高い結果。

その他（なぜ通ったか？等）

シンプルな考え方で、かつ作り込んだモデルがPoseTrackのテストデータで高い精度を出しているため通ったと考えられる。

このページで利用されている画像は論文から引用しています．