#29
summarized by : Yukitaka Tsuchiya
Vision-Infused Deep Audio Inpainting

どんな論文か?

楽器演奏動画において,一部の音の欠損を映像と音を用いて修復するタスクの提案
placeholder

新規性

(1)スペクトログラムを画像として,画像に用いられるインペイントの手法を適用 (2)音に合った映像を用いた音のインペイントを提案 (3)従来手法では0.25秒以上の復元は困難で合ったが,4秒という短い音の入力で0.8秒の音の修復に成功 (4)既存のデータセットMUSICを拡張し,新しくMUSICESを提案

結果

生成されたスペクトログラムは,画像生成の評価で用いられるPSNR,SSIMを用いて評価を行ない,スペクトログラムをWaveNet Decoderによって変換した音はSDR,OPSを用いて評価した.また,音の精度・ビデオと音の合致・GTとの比較の3つの項目についてユーザ評価を行なった.SampleRNNやVisual2Soundの従来手法と比較して精度が高いことが示された.

その他(なぜ通ったか?等)