#214
summarized by : Masuyama Yoshiki
Music Gesture for Visual Sound Separation

どんな論文か?

Audio-visual楽器音分離において,演奏者のキーポイント(関節)の時系列情報からGCNで情報を抽出し,音源分離のための時間周波数マスクの推定に利用することで性能改善.
placeholder

新規性

ごく自然なことだが,キーポイントの情報をAudio-visual音源分離に適用したことが新しい.

結果

異なる楽器音の分離/同じ楽器音の分離の両方で,動画情報をそのままDNNに渡すsound of motions上回る性能.提案手法でも動画情報をそのままResNet-50に渡し外見に関する情報を抽出するブロックを併用しているが,ablation studyの結果を見る限り不要.

その他(なぜ通ったか?等)

誤植複数発見.