#167
summarized by : Hikaru Ooba
VoViT: Low Latency Graph-Based Audio-Visual Voice Separation Transformer

どんな論文か?

顔と音声を含む動画を利用した音声分離
placeholder

新規性

10秒の録音を0.1秒未満で処理できる軽量なAV音源分離手法。 顔面ランドマークが生の映像に代わる計算コストの低い代替手段となりうることを示した。 歌声の特性が音声の特性とは大きく異なることを実証的に示した。

結果

10ブロックのAV-ST TransformerとリードボイスエンハンサーとしてU-Netを用いたモデルはこれまでのAV音声分離モデルを凌駕する性能を示した。

その他(なぜ通ったか?等)

音源分離問題において、音声情報だけよりも顔の情報があったほうが分離精度が良い。 殆どの研究が顔面情報を直接画像問題として解いたりするのに対し、本研究は顔面ランドマークを推定することで計算コストを抑えつつ精度を上げることに成功している。 デモ、コード、ウェイト:https://ipcv.github.io/VoViT/