V2C: Visual Voice Cloning

#541

summarized by : hayamizu ryo

Qi Chen; Mingkui Tan; Yuankai Qi; Jiaqiu Zhou; Yuanqing Li; Qi Wu

どんな論文か？

感情の情報を含んだテキスト読み上げ器としてVisual Voice Cloning Network (V2C-Net)を提案．映画の吹き替え音声生成として入力を読み上げるテキスト，参照音声，テキストに該当する映画のシーン(映像)とし，映像から感情情報を獲得する．また，10,217のビデオクリップと26のアニメーション映画，153の話者からなるデータセットV2C-Animation構築する．

新規性

新しいタスクであるVisual Voice Cloning (V2C)を提案 26のアニメ映画，153のキャラクター(話者)，10,217のビデオクリップ，音声と字幕からなる最初のV2C-Animationデータセットを構築 V2Cを解くVisual Voice Cloning Network (V2C-Net)を提案また，生成された音声を自動的に評価する自動評価指標MCD-DTW-SLを提供

結果

FastSpeech2とV2C-Netをメルスペクトログラムで比較した結果，V2C-Netの方が抑揚がGround Truthに沿ったものとなった．客観的評価指標と主観的評価指標の結果では生成された音声の同一性精度と感情精度で従来のSoTAモデルより良好な結果となった．

その他（なぜ通ったか？等）

新しいタスクであるVisual Voice Cloningが今後どれほどVoice Cloningにおいて取り組まれるタスクとなるか． https://github.com/chenqi008/V2C

このページで利用されている画像は論文から引用しています．