Foley Music: Learning to Generate Music from Videos

#50

summarized by : Yukitaka Tsuchiya

Chuang Gan, Deng Huang, Peihao Chen, Joshua B. Tenenbaum, Antonio Torralba

どんな論文か？

音の付いていない楽器演奏の動画から演奏音を生成する．動画から人のキーポイントの動きを抽出し，MIDIを予測する．予測したMIDIを既存の音楽合成によってリアルな演奏音を生成する．

新規性

Visual Encoder, MIDI Decoder, Audio Synthesizerの三つのコンポーネントから構成される．Graph CNN(GCN)を用いることで時間方向の潜在的表現を生成する．MIDI Decoderではtransformer modelを用いてMIDIを生成した．

結果

URMP, AtinPiano, MUSICデータセットを用いて評価を行った．ベースライン手法(SampleRNN, WaveNet, GAN-based Model)と提案手法で，４つの指標(Correctness, Least noise, Synchronization, Overall)で主観評価を行い，提案手法が優れていると示した．

その他（なぜ通ったか？等）

project page:[http://foley-music.csail.mit.edu], Demo Video: [https://www.youtube.com/watch?v=bo5UzyDB80E]

このページで利用されている画像は論文から引用しています．