Cross-Modal Perceptionist: Can Face Geometry Be Gleaned From Voices?

#354

summarized by : Anonymous

Cho-Ying Wu; Chin-Cheng Hsu; Ulrich Neumann

どんな論文か？

認知科学や神経科学など様々な分野で，人間の声と顔の関係性について研究がされている．本論文では，音声を入力として顔の3D形状を復元するモデルを構築することで，「人間の音声から顔形状を予測することが可能であるか？」というリサーチクエスチョンを検証した．

新規性

音声から顔画像を生成する先行研究はあるが，背景や髪形など音声からは予測不可能な要素が多い．そこで，顔の幾何形状の復元に焦点を置いている．新たなデータセットとして，VoxcelebとVGGFaceの2つの既存データセットをベースとしたVoxceleb-3Dを提案．音声から顔の幾何形状を予測する手法を提案．教師学習に加え，顔の3Dスキャンの収集は困難なことから教師なしの手法も提案している．

結果

初めて聞く音声を与えても，大まかな復元は可能である．一方，皺などの詳細は難しい．異なる発話区間を入力した際の比較では，形状に関しては一貫性を確認している．一方で，画像復元をした場合の背景はバラバラであり，形状に焦点を置くことで曖昧さがなくなるとしている．

その他（なぜ通ったか？等）

プロジェクトページ：https://choyingw.github.io/works/Voice2Mesh/index.html

このページで利用されている画像は論文から引用しています．