- …
- …
#56
summarized by : Yoshiki Masuyama
新規性
既存研究は画像内の物体と各音を結びつけるというコンセプトの研究が多かった.一方本研究は,事前学習済みモデルで物体を動画から検出し,シーングラフを構築しそのサブグラフを音源に結び付けている点が新しい.サブグラフを抽出する部分のDNNと抽出された情報を頼りに音源分離するDNNが,音源分離がうまくいくように学習される.
これにより,音源の物体だけでなく時空間的なコンテキストも活用できると期待している .
結果
既存のAVSSのデータセットは楽器音の分離に特化したものが多かっため,新しく”Baby","Bell","Birds"といった一般の音に関するデータセット,Audio Separation in the Wild (ASIW) datasetを構築した.
近年提案されているECCV2018以降の複数のAVSSの手法と比べ,ASIW を含む複数のデータセットで性能改善を確認.
その他(なぜ通ったか?等)
- …
- …