- …
- …
#791
summarized by : Yusuke Saito
どんな論文か?
単眼画像からの手や物体の三次元姿勢推定は、アノテーションが少なく、人間でさえも困難である。そこで本研究では、半教師付き学習を用いて3次元の手と物体の姿勢を推定する統一的なフレームワークを提案する。
新規性
- 合成データや3DのGTに頼るのではなく、大規模な実世界の動画の空間的・時間的情報を活用して、半教師的な方法でより良い手のポーズ推定性能と一般化能力を実現している。
- 以前の半教師付き学習のほとんどは、疑似ラベルを選択するための動画における空間的・時間的制約を考慮していない
- 提案する文脈推論モジュールは、画像全体ではなく、手と物体の間の関連する画像範囲の組のみを利用する。
結果
- HO-3Dデータセットを用いた姿勢推定では、SOTAと比較して最も高いメッシュAUCを達成.また、メッシュエラーが9.4mmと最も低い.
- FPHAおよびFreihandデータセットにおいて、半教師付き学習の効果を確認。ドメインを超えた汎用性も向上した。
その他(なぜ通ったか?等)
- 手および手にもった物体の姿勢を推定するというタスクにおいて、手と物体の時空間的な関係性に着目した点が面白い。
- また、精度の面でもSOTAを達成している点。
- …
- …