Vision-Infused Deep Audio Inpainting

#29

summarized by : Yukitaka Tsuchiya

Hang Zhou, Ziwei Liu, Xudong Xu, Ping Luo, Xiaogang Wang

どんな論文か？

楽器演奏動画において，一部の音の欠損を映像と音を用いて修復するタスクの提案

新規性

(1)スペクトログラムを画像として，画像に用いられるインペイントの手法を適用 (2)音に合った映像を用いた音のインペイントを提案 (3)従来手法では0.25秒以上の復元は困難で合ったが，4秒という短い音の入力で0.8秒の音の修復に成功 (4)既存のデータセットMUSICを拡張し，新しくMUSICESを提案

結果

生成されたスペクトログラムは，画像生成の評価で用いられるPSNR，SSIMを用いて評価を行ない，スペクトログラムをWaveNet Decoderによって変換した音はSDR，OPSを用いて評価した．また，音の精度・ビデオと音の合致・GTとの比較の3つの項目についてユーザ評価を行なった．SampleRNNやVisual2Soundの従来手法と比較して精度が高いことが示された．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．