#354
summarized by : Anonymous
Cross-Modal Perceptionist: Can Face Geometry Be Gleaned From Voices?

どんな論文か?

認知科学や神経科学など様々な分野で,人間の声と顔の関係性について研究がされている.本論文では,音声を入力として顔の3D形状を復元するモデルを構築することで,「人間の音声から顔形状を予測することが可能であるか?」というリサーチクエスチョンを検証した.
placeholder

新規性

音声から顔画像を生成する先行研究はあるが,背景や髪形など音声からは予測不可能な要素が多い.そこで,顔の幾何形状の復元に焦点を置いている. 新たなデータセットとして,VoxcelebとVGGFaceの2つの既存データセットをベースとしたVoxceleb-3Dを提案. 音声から顔の幾何形状を予測する手法を提案.教師学習に加え,顔の3Dスキャンの収集は困難なことから教師なしの手法も提案している.

結果

初めて聞く音声を与えても,大まかな復元は可能である.一方,皺などの詳細は難しい. 異なる発話区間を入力した際の比較では,形状に関しては一貫性を確認している.一方で,画像復元をした場合の背景はバラバラであり,形状に焦点を置くことで曖昧さがなくなるとしている.

その他(なぜ通ったか?等)

プロジェクトページ:https://choyingw.github.io/works/Voice2Mesh/index.html