2.5D Visual Sound

#867

summarized by : cfiken

Ruohan Gao, Kristen Grauman

どんな論文か？

モノラルな音声を、映像から空間的な情報を取り込んで、バイノーラルな音声に変換する 2.5D visual sound を提案した。また、提案手法によって得られたバイノーラルな音声が、自己教師あり学習により audio-visual source separation タスクに効果的な表現を得られていることを示した。学習に使用した 5.2時間分のバイノーラルな音声データも公開されている。

新規性

一般的な視界のビデオを用いて、モノラルな音声をバイノーラルな音声に変換する試みは初。 audio-visual source separation task に対してバイノーラルな音声特徴を用いるアプローチは初。

結果

FAIR-Play を始めとした4つのデータセットで、360度映像音声のためのモデルと、ベースラインモデル (Audio-only, Flipped-Visual, Mono-Mono) で実験し、量的評価, human test による評価ともに最も良い結果となった。 source separation タスクについても推定したバイノーラルな表現がより効果的であることを示した。

その他（なぜ通ったか？等）

モノラルからバイノーラルへの変換というアイディアがシンプルだが今までやられていなかったものであり、かつその表現が他のタスク(音源分離)でも有効であることを示した。

このページで利用されている画像は論文から引用しています．