JGR-P2O: Joint Graph Reasoning based Pixel-to-Offset Prediction Network for 3D Hand Pose Estimation from a Single Depth Image

#200

summarized by : Naoya Chiba

Linpu Fang, Xingyan Liu, Li Liu, Hang Xu, Wenxiong Kang

どんな論文か？

深度画像から手の姿勢推定を行う．ピクセル単位で関節位置へのオフセットを学習し単純な重み付き平均で関節位置を推定する．間接同士の接続関係を用いてグラフ畳み込みを行った後，先に計算した対応関係に相当する重みを利用して関節の特徴量を各ピクセルに伝搬させる．軽量なモデルで高速な推論を実現しており，110fpsで動作．

新規性

2Dでの畳み込みで関節座標を推定し全ピクセルから集約して座標を推定，この重みを利用して局所的で関節座標推定に適した特徴量を学習．さらに得られた特徴量を各ピクセルに重み付きで戻してから元の特徴量と結合することでよい特徴量が得られる．これをモジュールとして重ね，Fineな関節座標推定を実現．

結果

ICVL, NYU, MSRAで学習・評価．ベースラインとしたAttentionによる手法とDifferentiable Heat-Mapによる手法と比較し，提案するネットワーク構造が優れることを示した．また既存手法と比較してもデータセット次第でSoTAを達成．高精度でありながらパラメータ数が少なく高速な推論を実現した．

その他（なぜ通ったか？等）

https://github.com/fanglinpu/JGR-P2O

このページで利用されている画像は論文から引用しています．