#651
summarized by : Ryota Suzuki
Learning Individual Speaking Styles for Accurate Lip to Speech Synthesis

どんな論文か?

自由にしゃべっているところでの読唇タスクで難しいのは,人によって口の動かし方が個性的であることなので,個人に特化しての自由おしゃべり読唇タスクに挑戦した.まず個人が長く自由にしゃべっている動画のデータセット(5人,計120時間)を作成.3DCNN-LSTMでメル・スペクトログラムを作り,一般的なGriffin-Lim法で音声に変換.
placeholder

新規性

自由おしゃべり読唇タスク,すなわち唇の動かし方の制約がなく,かつボキャブラリが巨大な設定に取り組んだものはこれが初.

結果

GRID,TCD-TIMIT,データセットで評価,スピーチ指標STOI, ESTOI, PESQと単語誤り率において他手法を殆ど超越.更に,生成音声を発音の正確さ,単語抜け,同音異義語の発音正確さの3点で人に評価してもらい,これでも他手法を超越.

その他(なぜ通ったか?等)