#50
summarized by : Yukitaka Tsuchiya
Foley Music: Learning to Generate Music from Videos

どんな論文か?

音の付いていない楽器演奏の動画から演奏音を生成する.動画から人のキーポイントの動きを抽出し,MIDIを予測する.予測したMIDIを既存の音楽合成によってリアルな演奏音を生成する.
placeholder

新規性

Visual Encoder, MIDI Decoder, Audio Synthesizerの三つのコンポーネントから構成される.Graph CNN(GCN)を用いることで時間方向の潜在的表現を生成する.MIDI Decoderではtransformer modelを用いてMIDIを生成した.

結果

URMP, AtinPiano, MUSICデータセットを用いて評価を行った. ベースライン手法(SampleRNN, WaveNet, GAN-based Model)と提案手法で,4つの指標(Correctness, Least noise, Synchronization, Overall)で主観評価を行い,提案手法が優れていると示した.

その他(なぜ通ったか?等)

project page:[http://foley-music.csail.mit.edu], Demo Video: [https://www.youtube.com/watch?v=bo5UzyDB80E]