Quantized GAN for Complex Music Generation from Dance Videos

#260

summarized by : Haruhi Shida

Ye Zhu; Kyle Olszewski; Yu Wu; Panos Achlioptas; Menglei Chai; Yan Yan; Sergey Tulyakov

どんな論文か？

本論文では，ダンス映像を元に複雑な音楽サンプルを生成する新しい敵対的マルチモーダルフレームワークDance2M-GAN（D2M-GAN）を提案．本フレームワークは，ダンス映像のフレームと人体の動きを入力とし，それに対応する音楽サンプルを生成することを学習する．

新規性

ダンス映像からの音楽生成には課題があり，既存のconditionalな音楽生成手法が，複雑な音楽スタイルや実世界のシナリオにおいて一般化することを困難にしている．このギャップを埋めるために，Vector Quantizedオーディオ表現を介してダンスビデオから複雑な音楽サンプルを生成するために学習する、新しい敵対的マルチモーダルフレームワークを提案した，

結果

実世界で撮影されたダンス映像のデータセットを作成し、それを用いて挑戦的な設定で実験を行った．結果として本モデルは様々な音楽的特徴から妥当なダンス音楽を生成することができ，競合するいくつかのcondtionalな音楽生成手法を凌駕することができた．

その他（なぜ通ったか？等）

本論文では，Vector Quantized (VQ) オーディオ表現を用いて複雑なスタイルのダンス音楽（例：ポップ、ブレイクなど）を生成，その一般性と記号・連続表現の高い抽象性の両方を活用することに成功した．これは既存の手法が一般化する際の障壁となっていた「記号ベース手法で生成した音楽の柔軟性の無さ」を解決するものであったため採択された．

このページで利用されている画像は論文から引用しています．