Telling Left From Right: Learning Spatial Correspondence of Sight and Sound

#159

summarized by : Masuyama Yoshiki

Karren Yang, Bryan Russell, Justin Salamon

どんな論文か？

ステレオ音響信号と動画のペアデータを用いて、音響信号や動画から音源物体の空間情報を抽出するための自己教師あり学習法を提案。具体的には、ステレオ音響信号の左右をランダムにフリップし、フリップされている/いないを解くように音響信号を入力とするDNNと動画を入力とするDNNを学習する。また、このタスクのためにYoutubeからASMR動画を集めてきたYoutube-ASMR-300Kデータセットを構築。

新規性

Audio-visualの自己教師あり学習の先行研究は、音源クラス（論文内ではsemantic informationと表記）や音源の時系列情報のマッチングに基づいたものが多かった。本研究では、これらと相補的な音源の空間情報のマッチングに基づいた自己教師あり学習に注目したことが新しい。

結果

音源定位、モノラルからバイノーラルへの変換、音源分離で評価。各タスクで自己教師あり学習で獲得した表現の有効性を確認。

その他（なぜ通ったか？等）

自己教師あり学習の新しい枠組みを提案、必要なデータセットの構築、ダウンストリームタスクでの網羅的な評価。

このページで利用されている画像は論文から引用しています．