MUGEN: A Playground for Video-Audio-Text Multimodal Understanding and GENeration

#270

summarized by : Anonymous

Thomas Hayes; Songyang Zhang; Xi Yin; Guan Pang; Sasha Sheng; Harry Yang; Songwei Ge; Qiyuan Hu; Devi Parikh

ビデオ・音声・言語を含めたマルチモーダルなデータセットの自動構築について．ゲーム動画からビデオ・音声・言語のデータセットを自動で構築する．

ビデオ・音声・言語のデータセットをゲーム動画から自動で収集しマルチモーダルなデータセットを構築している点．

MUGENと呼ばれるマルチモーダルなデータセットを構築．MUGENには375kのビデオ・音声・言語データが含まれている．

マルチモーダルな大規模データセットを自動で生成可能な点は今後の研究に役立つと考えられる．

このページで利用されている画像は論文から引用しています．