Hiding Video in Audio via Reversible Generative Models

#24

summarized by : Ryota Suzuki

Hyukryul Yang, Hao Ouyang, Vladlen Koltun, Qifeng Chen

どんな論文か？

音声に電子透かしのように動画を隠す提案．つまり，音の情報を失わずに音に画像を埋め込み，音声から画像が生成できるようにする．そのとき，1秒の音声：1秒の動画程度の効率を達成する．Reversible Generative Models (Glow)で実装．ボトルネックを潜在変数に変換，そこから音声に埋め込み．実数部のbit-flipで埋め込むので音声の質に大きく影響しない．

新規性

音×画像のクロスモーダル，ステガノグラフィ（データ隠蔽）における新しい視点．音声：動画=5分：1秒を1秒：1秒にする効果的なステガノグラフィの達成．

結果

画像参照．SSIM 0.96を達成．0.6秒の音声から1秒の動画が生成．

その他（なぜ通ったか？等）

新鮮な感じがするのがすばらしい．

このページで利用されている画像は論文から引用しています．