Image2Reverb: Cross-Modal Reverb Impulse Response Synthesis

#116

summarized by : Yosuke Shinya

Nikhil Singh, Jeff Mentch, Jerry Ng, Matthew Beveridge, Iddo Drori

単一画像から音のインパルス応答を推定する。推定したインパルス応答を他の信号に畳み込むことで、画像に写る空間の残響特性を模擬できる。前段で単眼デプス推定を行い、後段のcGANでRGBD入力からスペクトログラムを生成する。

end-to-endで単一画像からインパルス応答を生成。 CNNでの残響生成は既出。cGANを用いた画像と音のモダリティ間変換は演奏音生成で既出。

残響時間推定誤差の定量評価と、音の専門家による評価で有効性を実証。絵画、ゲーム画像、DALL·Eの生成画像など、真値不明の画像にも適用可能。

このページで利用されている画像は論文から引用しています．