#365
summarized by : Anonymous
Sound-Guided Semantic Video Generation

どんな論文か?

StyleGANを用いて、音声と一枚の画像からリアルな動画を生成するフレームワークを提案した。

新規性

StyleGANの潜在空間を決定的に操作することが困難であるため、生成された動画が意味あるものではない。この論文では、マルチモーダル潜在空間(音声ー画像ーテキスト)を活用したリアルな動画生成のフレームワークを提案した。

結果

実験では、提案手法は音誘導型映像生成タスクにおいて、最先端の手法より良い精度を示した。さらに、画像や動画編集などのアプリケーションにも、提案法の有効性を検証した。

その他(なぜ通ったか?等)

https://kuai-lab.github.io/eccv2022sound/