Looking Into Your Speech: Learning Cross-Modal Affinity for Audio-Visual Speech Separation

#697

summarized by : 金城忍

Jiyoung Lee, Soo-Whan Chung, Sunok Kim, Hong-Goo Kang, Kwanghoon Sohn

どんな論文か？

音声、映像の特徴量を取得後、音声の特徴量に対して複数のフレームの映像の特徴量を比較することで、時間方向での一時的な対応を取ることで、ノイズの影響を取り除いた対象の音声に対する連続した一貫性を維持するようにすることで、フレームの連続性に依存しない映像音声分離手法の提案

新規性

時間軸方向で、ある時間の音声の特徴量を、任意の範囲の映像の特徴量との対応を考慮するという点で新規

結果

Lip Reading Sentences (LRS) 2、3及びVoxCeleb2での評価で、LRS2, 3で提案手法は既存手法より良い結果を達成 (Signal-to-Distortion Ratio値) する一方で、VoxCeleb2での発話者に対する汎化性の評価においては、既存手法にみられる性能劣化が確認された

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．