- …
- …
#651
summarized by : Ryota Suzuki
どんな論文か?
自由にしゃべっているところでの読唇タスクで難しいのは,人によって口の動かし方が個性的であることなので,個人に特化しての自由おしゃべり読唇タスクに挑戦した.まず個人が長く自由にしゃべっている動画のデータセット(5人,計120時間)を作成.3DCNN-LSTMでメル・スペクトログラムを作り,一般的なGriffin-Lim法で音声に変換.
新規性
自由おしゃべり読唇タスク,すなわち唇の動かし方の制約がなく,かつボキャブラリが巨大な設定に取り組んだものはこれが初.
結果
GRID,TCD-TIMIT,データセットで評価,スピーチ指標STOI, ESTOI, PESQと単語誤り率において他手法を殆ど超越.更に,生成音声を発音の正確さ,単語抜け,同音異義語の発音正確さの3点で人に評価してもらい,これでも他手法を超越.
その他(なぜ通ったか?等)
- …
- …