#139
summarized by : Murakami
KeypointNeRF: Generalizing Image-Based Volumetric Avatars Using Relative Spatial Encoding of Keypoints

どんな論文か?

相対的空間エンコーディングを提案し、画素特徴を用いた画像ベースのボリュメトリック表現は未知のポーズや個性の汎化が可能であることを示した研究。相対的な空間情報はカメラパラメータに依存しないため、視点の疎密とデータセット間のドメインギャップに頑健となり、2~3枚の画像から未知のボリュメトリックヒューマンモデルを生成するタスクでSoTA。
placeholder

新規性

先行研究では空間的な曖昧さを回避するため、グローバルな空間エンコーディングやマルチビューのジオメトリ一貫性を利用しているが、グローバルなエンコーディングは学習データへのオーバーフィッティングに苦しみ、スパースな画像群ではジオメトリ一貫性を保持することが困難。そこでスパースな3Dキーポイントを介して相対的な空間情報をエンコードすることで、この課題に対処している点。

結果

iphoneで撮影した動画や、zju-mocapデータセットを用いて実験を行い、少数画像で顔・人体をボリュメトリックに表現するIBRnetやPVAとの比較を行った結果、品質を上回る結果。

その他(なぜ通ったか?等)

github:https://github.com/facebookresearch/KeypointNeRF