Semi-Supervised 3D Hand-Object Poses Estimation With Interactions in Time

#791

summarized by : Yusuke Saito

Shaowei Liu, Hanwen Jiang, Jiarui Xu, Sifei Liu, Xiaolong Wang

どんな論文か？

単眼画像からの手や物体の三次元姿勢推定は、アノテーションが少なく、人間でさえも困難である。そこで本研究では、半教師付き学習を用いて3次元の手と物体の姿勢を推定する統一的なフレームワークを提案する。

新規性

- 合成データや3DのGTに頼るのではなく、大規模な実世界の動画の空間的・時間的情報を活用して、半教師的な方法でより良い手のポーズ推定性能と一般化能力を実現している。 - 以前の半教師付き学習のほとんどは、疑似ラベルを選択するための動画における空間的・時間的制約を考慮していない - 提案する文脈推論モジュールは、画像全体ではなく、手と物体の間の関連する画像範囲の組のみを利用する。

結果

- HO-3Dデータセットを用いた姿勢推定では、SOTAと比較して最も高いメッシュAUCを達成．また、メッシュエラーが9.4mmと最も低い． - FPHAおよびFreihandデータセットにおいて、半教師付き学習の効果を確認。ドメインを超えた汎用性も向上した。

その他（なぜ通ったか？等）

- 手および手にもった物体の姿勢を推定するというタスクにおいて、手と物体の時空間的な関係性に着目した点が面白い。 - また、精度の面でもSOTAを達成している点。

このページで利用されている画像は論文から引用しています．