- …
- …
#146
summarized by : Yukitaka Tsuchiya
新規性
Generator部分にあたるPrediction Network, Multimodal Stochastic Networkではフレーム生成する際の確率的要素をモデル化した.
ビデオの品質を向上させるために,音声と画像を結合した表現を識別するMultimodal Discriminatorを提案した.
結果
M3SO(moving MNISTに音を付与した拡張版), Youtube-Painting(絵を描く動きと筆の音), AudioSet-Drumsの3つのデータセットで評価を行った.
SSIM, PSNRで数値評価を行った.
その他(なぜ通ったか?等)
project page: [https://sites.google.com/site/metrosmiles/research/research-projects/sound2sight]
demo: [https://www.youtube.com/watch?v=i4ie5y84HhQ]
- …
- …