#780
summarized by : 金城 忍
Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation

どんな論文か?

2つの動画像から抽出された音声及び映像の中の物体の特徴量を使用して、音を発生している物体のポジティブペアをクロスエントロピーで推定する一方で、物体毎に音声を分離する手法の提案

新規性

音声の物体からの分離及び音声の分離をする一方で、音を発生させていない物体も特定するという点で新規

結果

音声、物体の特徴量抽出器に、それぞれVGGish、Facter R-CNN+ResNet-18を使用し、MIT MUSICで信号との 歪み比 (SDR)、搬送波対干渉波比 (SIR) を指標にした評価で、提案手法は既存手法より良い結果を達成する一方で、スペクトログラムでの質的評価では、物体毎に音声の状態を良く示す結果となった

その他(なぜ通ったか?等)