#56
summarized by : Yoshiki Masuyama
Visual Scene Graphs for Audio Source Separation

どんな論文か?

動画情報を頼りに,対応した混合音を各音源に分離するAudio-visual source separation (AVSS) に関する研究.
placeholder

新規性

既存研究は画像内の物体と各音を結びつけるというコンセプトの研究が多かった.一方本研究は,事前学習済みモデルで物体を動画から検出し,シーングラフを構築しそのサブグラフを音源に結び付けている点が新しい.サブグラフを抽出する部分のDNNと抽出された情報を頼りに音源分離するDNNが,音源分離がうまくいくように学習される. これにより,音源の物体だけでなく時空間的なコンテキストも活用できると期待している .

結果

既存のAVSSのデータセットは楽器音の分離に特化したものが多かっため,新しく”Baby","Bell","Birds"といった一般の音に関するデータセット,Audio Separation in the Wild (ASIW) datasetを構築した. 近年提案されているECCV2018以降の複数のAVSSの手法と比べ,ASIW を含む複数のデータセットで性能改善を確認.

その他(なぜ通ったか?等)