#570
summarized by : a2kiti
Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image Synthesis

どんな論文か?

人物画像の姿勢・外観の分離と画像生成を用いた3次元姿勢推定の自己教師あり学習フレームワークを提案。
placeholder

新規性

エンコーダーで3次元姿勢とカメラパラメーター、外観を表す潜在表現を出力し、 デコーダーで人物部位のセグメンテーションと前景人物画像を得るように学習する。 関節間の部位の空間マップを微分可能な形でモデル化し、3次元座標の出力から得られる深度情報を用いてオクルージョンを明示的に扱う。 同じ動画中の時間的に離れたフレームペアを学習に用いることでエンコーダーの出力をうまく分離させるのがポイント。

結果

Youtube動画などのin the wildなデータセットにも提案フレームワークで一般化できることを実証。 弱教師有り学習でHuman3.6MとMPI-INF3DHPでSOTA。

その他(なぜ通ったか?等)

背景が大きく変化するin the wildな動画から学習できるためロバスト性に優れる。 姿勢と外観の表現が明確に分離されているため、任意の姿勢を持つ画像を生成をすることも可能。