Discriminative Multi-Modality Speech Recognition

#553

summarized by : Yue Qiu

Bo Xu, Cheng Lu, Yandong Guo, Jacob Wang

どんな論文か？

2-staged ビデオとAudioからSpeechを認識する手法を提案．Stage-1で視覚情報を補助し，Targe音声を背景ノイズから分離する．Stage-2で分離されたAudioと視覚情報を入力し，マルチモーダルモデルで音声の認識を行う．複数の既存データセットで提案モデルがSOTAを達成．

新規性

①pseudo-3D residual convolution (P3D)を提案し，画像からもっとdiscriminativeな視覚特徴を抽出可能に；②TCN(temporal CN)を用いて時系列情報を抽出し，従来広く使われている1D ResNetより優位性を示した；③Transformerよりこのタスクでもっと有効であるモデルElement-wise-Attention GRUを提案．

結果

従来広く使われているLRS3-TEDとLRWデータセットでSOTAを達成（従来のSOTAより大幅精度更新）．

その他（なぜ通ったか？等）

2-staged手法は理解しやすい．まず画像を補助情報としてターゲット音声を背景ノイズから分離するところがほかの手法にも適応できそう．

このページで利用されている画像は論文から引用しています．