#1044
summarized by : a2kiti
Coherent Reconstruction of Multiple Humans From a Single Image

どんな論文か?

多人数の映る画像に対する人物形状を推定するトップダウンアプローチに関する研究。 人物ごとに個別に形状推定するトップダウン型では 推定メッシュ同士が空間的に重なっていたり、位置関係がおかしくなる場合があるため、 空間的な整合性を取るための学習方法を提案。
placeholder

新規性

推定したメッシュ間の空間的な重なりに対する損失を導入。 推定メッシュから得られる再投影結果と インスタンスセグメンテーションのラベルとの損失を用いることで、 深度方向の順序付けを学習。 全人物を同時にレンダリングするとオクルージョン部分の学習が不安定になるため、 人物ごとに独立にレンダリング。

結果

Panoptic、MuPoTS-3Dにおいて、提案する損失により複数人が映る場合の精度が向上することを確認。 優れた単一人物用のネットワークが複数人用のトップダウンパイプラインでもそのまま有効である2次元での推定と異なり、 3次元推定ではオクルージョンと空間的な重なりを考慮することが重要になることがわかった。

その他(なぜ通ったか?等)