Sound2Sight: Generating Visual Dynamics from Sound and Context

#146

summarized by : Yukitaka Tsuchiya

Moitreya Chatterjee, Anoop Cherian

どんな論文か？

過去数枚のフレームと全体の音ら未来の動画を生成するSound2Sightを提案． VAE, GAN, Transformerの構造で構成されている．

新規性

Generator部分にあたるPrediction Network, Multimodal Stochastic Networkではフレーム生成する際の確率的要素をモデル化した．ビデオの品質を向上させるために，音声と画像を結合した表現を識別するMultimodal Discriminatorを提案した．

結果

M3SO(moving MNISTに音を付与した拡張版), Youtube-Painting(絵を描く動きと筆の音), AudioSet-Drumsの３つのデータセットで評価を行った． SSIM, PSNRで数値評価を行った．

その他（なぜ通ったか？等）

project page: [https://sites.google.com/site/metrosmiles/research/research-projects/sound2sight] demo: [https://www.youtube.com/watch?v=i4ie5y84HhQ]

このページで利用されている画像は論文から引用しています．