Sound-Guided Semantic Video Generation

#365

summarized by : Anonymous

Seung Hyun Lee; Gyeongrok Oh; Wonmin Byeon; Chanyoung Kim; Won Jeong Ryoo; Sang Ho Yoon; Hyunjun Cho; Jihyun Bae; Jinkyu Kim; Sangpil Kim

StyleGANを用いて、音声と一枚の画像からリアルな動画を生成するフレームワークを提案した。

StyleGANの潜在空間を決定的に操作することが困難であるため、生成された動画が意味あるものではない。この論文では、マルチモーダル潜在空間（音声ー画像ーテキスト）を活用したリアルな動画生成のフレームワークを提案した。

実験では、提案手法は音誘導型映像生成タスクにおいて、最先端の手法より良い精度を示した。さらに、画像や動画編集などのアプリケーションにも、提案法の有効性を検証した。

https://kuai-lab.github.io/eccv2022sound/

このページで利用されている画像は論文から引用しています．