VisualVoice: Audio-Visual Speech Separation With Cross-Modal Consistency

#195

summarized by : 金城忍

Ruohan Gao, Kristen Grauman

どんな論文か？

与えられた動画から音声と映像を分離後、映像部分より唇の動きに関する特徴量及び発話者の顔の特性に関する特徴量を抽出し、それらを音声から取得した時間離散的な周波数の特徴量と融合し、デーコーダによって音声シグナルを再構築した後、映像、音声のモーダルを使用した対称学習によって、教師信号無しに音声、視覚における発話の分離を実現

新規性

唇の動きだけではなく、発話者の顔の特性を取り入れた発話者間の発話分離を実施したという点で新規

結果

VoxCeleb2で事前学習したモデルで、Mandarin、TCD-TIMIT、CUAVEを使用した評価及び、LRS2を使用した学習と評価において既存のSOTAより良い結果を達成

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．