#116
summarized by : Yosuke Shinya
Image2Reverb: Cross-Modal Reverb Impulse Response Synthesis

どんな論文か?

単一画像から音のインパルス応答を推定する。推定したインパルス応答を他の信号に畳み込むことで、画像に写る空間の残響特性を模擬できる。 前段で単眼デプス推定を行い、後段のcGANでRGBD入力からスペクトログラムを生成する。
placeholder

新規性

end-to-endで単一画像からインパルス応答を生成。 CNNでの残響生成は既出。cGANを用いた画像と音のモダリティ間変換は演奏音生成で既出。

結果

残響時間推定誤差の定量評価と、音の専門家による評価で有効性を実証。 絵画、ゲーム画像、DALL·Eの生成画像など、真値不明の画像にも適用可能。

その他(なぜ通ったか?等)