Coherent Reconstruction of Multiple Humans From a Single Image

#1044

summarized by : a2kiti

Wen Jiang, Nikos Kolotouros, Georgios Pavlakos, Xiaowei Zhou, Kostas Daniilidis

どんな論文か？

多人数の映る画像に対する人物形状を推定するトップダウンアプローチに関する研究。人物ごとに個別に形状推定するトップダウン型では推定メッシュ同士が空間的に重なっていたり、位置関係がおかしくなる場合があるため、空間的な整合性を取るための学習方法を提案。

新規性

推定したメッシュ間の空間的な重なりに対する損失を導入。推定メッシュから得られる再投影結果とインスタンスセグメンテーションのラベルとの損失を用いることで、深度方向の順序付けを学習。全人物を同時にレンダリングするとオクルージョン部分の学習が不安定になるため、人物ごとに独立にレンダリング。

結果

Panoptic、MuPoTS-3Dにおいて、提案する損失により複数人が映る場合の精度が向上することを確認。優れた単一人物用のネットワークが複数人用のトップダウンパイプラインでもそのまま有効である2次元での推定と異なり、 3次元推定ではオクルージョンと空間的な重なりを考慮することが重要になることがわかった。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．