KeypointNeRF: Generalizing Image-Based Volumetric Avatars Using Relative Spatial Encoding of Keypoints

#139

summarized by : Murakami

Marko Mihajlovic; Aayush Bansal; Michael Zollhöfer; Siyu Tang; Shunsuke Saito

どんな論文か？

相対的空間エンコーディングを提案し、画素特徴を用いた画像ベースのボリュメトリック表現は未知のポーズや個性の汎化が可能であることを示した研究。相対的な空間情報はカメラパラメータに依存しないため、視点の疎密とデータセット間のドメインギャップに頑健となり、2~3枚の画像から未知のボリュメトリックヒューマンモデルを生成するタスクでSoTA。

新規性

先行研究では空間的な曖昧さを回避するため、グローバルな空間エンコーディングやマルチビューのジオメトリ一貫性を利用しているが、グローバルなエンコーディングは学習データへのオーバーフィッティングに苦しみ、スパースな画像群ではジオメトリ一貫性を保持することが困難。そこでスパースな3Dキーポイントを介して相対的な空間情報をエンコードすることで、この課題に対処している点。

結果

iphoneで撮影した動画や、zju-mocapデータセットを用いて実験を行い、少数画像で顔・人体をボリュメトリックに表現するIBRnetやPVAとの比較を行った結果、品質を上回る結果。

その他（なぜ通ったか？等）

github：https://github.com/facebookresearch/KeypointNeRF

このページで利用されている画像は論文から引用しています．