#31
summarized by : Yukitaka Tsuchiya
Recursive Visual Sound Separation Using Minus-Plus Net

どんな論文か?

動画の画像情報とスペクトログラムから複数音の音源分離を行う.
placeholder

新規性

提案されたMP-Net (MinusPlus Network)では,M-Net (Minus Network)とP-Net(Plus Network)によりスペクトログラムに音が含まれない状態になるまで音を分離し続ける.まず,エネルギーの大きい音が最初に分離され,次はその分離された後のスペクトログラムをMP-Netに通すことでエネルギーの小さい音の分離が可能となる.

結果

MUSIC(チェロやクラリネットなど11種類の楽器演奏動画)とVEGAS(花火やドラムなど10種類の自然音が含まれる動画)を用いて評価を行なった.PixelPlayer,MIMLの2つの従来手法とNSDR,SIR,SAR,AMIDの評価指標で比較を行いSOTAを達成した.また,MP-Netは学習時の音の種類の数より多い音が混合されている場合に,従来手法より精度良く分離することが可能.

その他(なぜ通ったか?等)