Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image Synthesis

#570

summarized by : a2kiti

Jogendra Nath Kundu, Siddharth Seth, Varun Jampani, Mugalodi Rakesh, R. Venkatesh Babu, Anirban Chakraborty

どんな論文か？

人物画像の姿勢・外観の分離と画像生成を用いた3次元姿勢推定の自己教師あり学習フレームワークを提案。

新規性

エンコーダーで3次元姿勢とカメラパラメーター、外観を表す潜在表現を出力し、デコーダーで人物部位のセグメンテーションと前景人物画像を得るように学習する。関節間の部位の空間マップを微分可能な形でモデル化し、3次元座標の出力から得られる深度情報を用いてオクルージョンを明示的に扱う。同じ動画中の時間的に離れたフレームペアを学習に用いることでエンコーダーの出力をうまく分離させるのがポイント。

結果

Youtube動画などのin the wildなデータセットにも提案フレームワークで一般化できることを実証。弱教師有り学習でHuman3.6MとMPI-INF3DHPでSOTA。

その他（なぜ通ったか？等）

背景が大きく変化するin the wildな動画から学習できるためロバスト性に優れる。姿勢と外観の表現が明確に分離されているため、任意の姿勢を持つ画像を生成をすることも可能。

このページで利用されている画像は論文から引用しています．