#144
summarized by : Shintaro Yamamoto
Capture, Learning, and Synthesis of 3D Speaking Styles

どんな論文か?

3次元の顔モデルをスピーチ情報を使って制御するという研究である。既存データセットのデータ数の少なさを補うため新たなスピーチデータセットを構築し、VOCAというニューラルネットモデルを構築した。
placeholder

新規性

4D(xyz+t)のスピーチデータセットであるVOCASETを構築した。12人(男女6人ずつ)、660fpsで3-4秒の動画480本が含まれている。学習時に人物のアイデンティティをコンディションとして与えることで、テスト時にはコンディションをスピーチのスタイルとして扱うことが可能となる。

結果

学習時に与えた個人のアイデンティティをスタイルとして扱うことで、学習時に登場しない人物に対しても適用が可能である。また、英語以外の言語など話すときのスタイルが異なる場合でも適用可能なことを確認した。

その他(なぜ通ったか?等)