#146
summarized by : Yukitaka Tsuchiya
Sound2Sight: Generating Visual Dynamics from Sound and Context

どんな論文か?

過去数枚のフレームと全体の音ら未来の動画を生成するSound2Sightを提案. VAE, GAN, Transformerの構造で構成されている.
placeholder

新規性

Generator部分にあたるPrediction Network, Multimodal Stochastic Networkではフレーム生成する際の確率的要素をモデル化した. ビデオの品質を向上させるために,音声と画像を結合した表現を識別するMultimodal Discriminatorを提案した.

結果

M3SO(moving MNISTに音を付与した拡張版), Youtube-Painting(絵を描く動きと筆の音), AudioSet-Drumsの3つのデータセットで評価を行った. SSIM, PSNRで数値評価を行った.

その他(なぜ通ったか?等)

project page: [https://sites.google.com/site/metrosmiles/research/research-projects/sound2sight] demo: [https://www.youtube.com/watch?v=i4ie5y84HhQ]