- …
- …
#570
summarized by : a2kiti
新規性
エンコーダーで3次元姿勢とカメラパラメーター、外観を表す潜在表現を出力し、 デコーダーで人物部位のセグメンテーションと前景人物画像を得るように学習する。 関節間の部位の空間マップを微分可能な形でモデル化し、3次元座標の出力から得られる深度情報を用いてオクルージョンを明示的に扱う。 同じ動画中の時間的に離れたフレームペアを学習に用いることでエンコーダーの出力をうまく分離させるのがポイント。
結果
Youtube動画などのin the wildなデータセットにも提案フレームワークで一般化できることを実証。 弱教師有り学習でHuman3.6MとMPI-INF3DHPでSOTA。
その他(なぜ通ったか?等)
背景が大きく変化するin the wildな動画から学習できるためロバスト性に優れる。 姿勢と外観の表現が明確に分離されているため、任意の姿勢を持つ画像を生成をすることも可能。
- …
- …