- …
- …
#354
summarized by : Anonymous
どんな論文か?
認知科学や神経科学など様々な分野で,人間の声と顔の関係性について研究がされている.本論文では,音声を入力として顔の3D形状を復元するモデルを構築することで,「人間の音声から顔形状を予測することが可能であるか?」というリサーチクエスチョンを検証した.
新規性
音声から顔画像を生成する先行研究はあるが,背景や髪形など音声からは予測不可能な要素が多い.そこで,顔の幾何形状の復元に焦点を置いている.
新たなデータセットとして,VoxcelebとVGGFaceの2つの既存データセットをベースとしたVoxceleb-3Dを提案.
音声から顔の幾何形状を予測する手法を提案.教師学習に加え,顔の3Dスキャンの収集は困難なことから教師なしの手法も提案している.
結果
初めて聞く音声を与えても,大まかな復元は可能である.一方,皺などの詳細は難しい.
異なる発話区間を入力した際の比較では,形状に関しては一貫性を確認している.一方で,画像復元をした場合の背景はバラバラであり,形状に焦点を置くことで曖昧さがなくなるとしている.
その他(なぜ通ったか?等)
プロジェクトページ:https://choyingw.github.io/works/Voice2Mesh/index.html
- …
- …