Localizing Visual Sounds the Hard Way

#656

summarized by : 金城忍

Honglie Chen, Weidi Xie, Triantafyllos Afouras, Arsha Nagrani, Andrea Vedaldi, Andrew Zisserman

動画のクリップから抽出された映像と音声の特徴量の類似度を使用してヒートマップを作成し、音声を発生させている領域 (正例) とそうではない領域 (負例) にマスクを掛ける一方で、各領域とヒートマップに対して対称学習をすることで教師無しで映像中の音声の発生源を特定する手法の提案

映像、音声の類似度から得られるヒートマップと音声を発生させている領域 (正例) とそうではない領域 (負例) に対する疑似マスクを対称学習することで音声の発生源を特定するという点で新規

映像、音声の特徴量抽出機にResNet18を使用しFlickr SoundNet、VGG-SSでの評価では、CIoU値及びAUC値で、提案手法が既存手法より、良い結果を達成する一方で、ヒートマップでの視覚的評価では、音声の発生源に対して敏感に反応していることが確認された

このページで利用されている画像は論文から引用しています．