H+O: Unified Egocentric Recognition of 3D Hand-Object Poses and Interactions

#272

summarized by : Naoya Chiba

Bugra Tekin, Federica Bogo, Marc Pollefeys

どんな論文か？

一人称視点のビデオシーケンスから，フレームごとの物体と手の姿勢及び動作全体のカテゴリを同時に推定．各フレームをFCNで処理し，3D Grid上での手と物体の姿勢を表す3D Control Pointsを直接出力，さらにLSTMにシーケンス順に特徴量を入力して動作のカテゴリを出力する．

新規性

物体と手の姿勢，動作カテゴリの同時推定によって全体の性能が向上することを示した．また，ボクセル上で推定することによってPnP問題を回避し，精度が向上している．既存のいくつかの手法とは異なり，深度情報を用いずにSoTAを達成している．

結果

First-Person Hand Action (FPHA) datasetの一部にアノテーションし，FPHA-HOデータセットを構築，SoTAを達成．EgoDexter hand pose estimation datasetの一部にアノテーションして評価も行った．FPHAに対する動作推定でもSoTAを達成しており，物体と手の姿勢と動作を同時に推定することが有効であることを確認している．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．