Forward Propagation, Backward Regression, and Pose Association for Hand Tracking in the Wild

#105

summarized by : Masanori YANO

Mingzhen Huang; Supreeth Narasimhaswamy; Saif Vazir; Haibin Ling; Minh Hoai

どんな論文か？

動画から「人物の手」を追跡するタスクで、連続したフレーム画像を入力して移動量を推定する手法と、その評価を行うためのデータセットに関する論文。

新規性

重みを共有したDLAで連続したフレーム画像の特徴抽出を行って作成した物体検出のヒートマップと、既存のフロー推定と姿勢推定の推論結果を活用したネットワーク構造で、物体検出の結果とフレーム間の移動量を推定するHandLerを提案した。また、YouTubeから著作権マークがない200個の動画を収集し、動画の15フレームごとにアノテーションを実施してYouTube-Handデータセットを構築した。

結果

バックボーンにDLA-34を使用し、ICCV 2019採択のHand-CNNで使用したデータセットで事前学習してからYouTube-Handデータセットで精度の評価を行い、従来手法を上回る結果。また、動画のフレームレートを落とした場合も、従来手法のSORTを上回る結果。

その他（なぜ通ったか？等）

人物ではなく、手に特化して動画データセットから取り組み、提案手法の追跡性能の高さを示したことで通ったと考えられる。プロジェクトページ( https://vision.cs.stonybrook.edu/~mingzhen/handler/ )が公開されている。

このページで利用されている画像は論文から引用しています．