Localize to Binauralize: Audio Spatialization From Visual Sound Source Localization

#156

summarized by : Yoshiki Masuyama

Kranthi Kumar Rachavarapu, Aakanksha, Vignesh Sundaresha, A. N. Rajagopalan

モノラル信号と画像からバイノーラル信号を生成するDNNを弱教師あり，半教師あり学習法を提案．生成された信号のみから音源定位を行い，物体検出等で事前学習したモデルの画像に対する顕著性マップを予測できるように，ステレオ信号生成DNNと音源定位DNNを学習．

バイノーラル信号を収録するのは高コストなので，モノラル信号と画像からからバイノーラル信号を生成する研究は複数あった．本研究の主な貢献は，学習に必要なバイノーラル信号を削減するために、音源定位を補助的に使う点．

教師 (バイノーラル) 信号を大量に用いる手法には及ばないが，教師信号の数が制限された準教師ありのセッティングでは，教師なしデータ (モノラル信号+画像) で弱教師あり学習することで性能を改善．

このページで利用されている画像は論文から引用しています．