Capture, Learning, and Synthesis of 3D Speaking Styles

#144

summarized by : Shintaro Yamamoto

Daniel Cudeiro, Timo Bolkart, Cassidy Laidlaw, Anurag Ranjan, Michael J. Black

3次元の顔モデルをスピーチ情報を使って制御するという研究である。既存データセットのデータ数の少なさを補うため新たなスピーチデータセットを構築し、VOCAというニューラルネットモデルを構築した。

4D(xyz+t)のスピーチデータセットであるVOCASETを構築した。12人(男女6人ずつ)、660fpsで3-4秒の動画480本が含まれている。学習時に人物のアイデンティティをコンディションとして与えることで、テスト時にはコンディションをスピーチのスタイルとして扱うことが可能となる。

学習時に与えた個人のアイデンティティをスタイルとして扱うことで、学習時に登場しない人物に対しても適用が可能である。また、英語以外の言語など話すときのスタイルが異なる場合でも適用可能なことを確認した。

このページで利用されている画像は論文から引用しています．