summarized by : Yosuke Shinya
Nikhil Singh, Jeff Mentch, Jerry Ng, Matthew Beveridge, Iddo Drori
単一画像から音のインパルス応答を推定する。推定したインパルス応答を他の信号に畳み込むことで、画像に写る空間の残響特性を模擬できる。
前段で単眼デプス推定を行い、後段のcGANでRGBD入力からスペクトログラムを生成する。
end-to-endで単一画像からインパルス応答を生成。
CNNでの残響生成は既出。cGANを用いた画像と音のモダリティ間変換は演奏音生成で既出。
残響時間推定誤差の定量評価と、音の専門家による評価で有効性を実証。
絵画、ゲーム画像、DALL·Eの生成画像など、真値不明の画像にも適用可能。