#879
summarized by : fnakamura
Monocular Real-Time Hand Shape and Motion Capture Using Multi-Modal Data

どんな論文か?

単眼 RGB 画像からの手の3次元ポーズ推定課題で高精度かつ高速度で推定する手法を提案、2つモジュールから構成され、特徴抽出器+2D&3D関節検出器で構成される DetNet で2Dおよび3Dの関節位置を推定し、この関節位置の推定に基づいて IKNet が逆運動学的に関節角を推定する。
placeholder

新規性

3D データ、合成データ、2D データ (画像) に加えて、既存研究では利用されていない手のモーションキャプチャデータ (MoCap) を利用し、あらゆるモダリティのデータを使用して学習することができる。 3D 関節位置だけでなく、CG 等で重要となる手のメッシュモデルのアニメーションに必要な関節角も推定するネットワーク (IKNet) を導入した。

結果

accuracy, robustness, runtime を大きく改善、4つの公開データセットのうち半数で他の11手法を上回る精度であり、100fps を超える実行速度を達成した。 Ablation study では IKNet 等の有無による影響が調べられ、IKNet が性能向上に寄与していることが示された。

その他(なぜ通ったか?等)