- …
- …
#144
summarized by : Shintaro Yamamoto
どんな論文か?
3次元の顔モデルをスピーチ情報を使って制御するという研究である。既存データセットのデータ数の少なさを補うため新たなスピーチデータセットを構築し、VOCAというニューラルネットモデルを構築した。
新規性
4D(xyz+t)のスピーチデータセットであるVOCASETを構築した。12人(男女6人ずつ)、660fpsで3-4秒の動画480本が含まれている。学習時に人物のアイデンティティをコンディションとして与えることで、テスト時にはコンディションをスピーチのスタイルとして扱うことが可能となる。
結果
学習時に与えた個人のアイデンティティをスタイルとして扱うことで、学習時に登場しない人物に対しても適用が可能である。また、英語以外の言語など話すときのスタイルが異なる場合でも適用可能なことを確認した。
その他(なぜ通ったか?等)
- …
- …