#270
summarized by : Anonymous
MUGEN: A Playground for Video-Audio-Text Multimodal Understanding and GENeration

どんな論文か?

ビデオ・音声・言語を含めたマルチモーダルなデータセットの自動構築について.ゲーム動画からビデオ・音声・言語のデータセットを自動で構築する.
placeholder

新規性

ビデオ・音声・言語のデータセットをゲーム動画から自動で収集しマルチモーダルなデータセットを構築している点.

結果

MUGENと呼ばれるマルチモーダルなデータセットを構築.MUGENには375kのビデオ・音声・言語データが含まれている.

その他(なぜ通ったか?等)

マルチモーダルな大規模データセットを自動で生成可能な点は今後の研究に役立つと考えられる.