summarized by : Anonymous
Angjoo Kanazawa, Jason Y. Zhang, Panna Felsen, Jitendra Malik
1枚の行動中の人物画像から、人物の過去と未来の3Dポーズの動きを推測するフレームワークを提案。
(ステレオカメラ等の)マルチビュー設定に依存せず、単眼カメラで取得したビデオから動画内の人物の2Dポーズを抽出し学習するようにした。
3D Poses in the Wild DatasetでHuman Mesh and Motion Recovery(HMMR)モデルを評価、ファインチューニング未実施で3D予測タスクの最高精度(SOTA)を達成。