summarized by : Anonymous
Thomas Hayes; Songyang Zhang; Xi Yin; Guan Pang; Sasha Sheng; Harry Yang; Songwei Ge; Qiyuan Hu; Devi Parikh
ビデオ・音声・言語を含めたマルチモーダルなデータセットの自動構築について.ゲーム動画からビデオ・音声・言語のデータセットを自動で構築する.
ビデオ・音声・言語のデータセットをゲーム動画から自動で収集しマルチモーダルなデータセットを構築している点.
MUGENと呼ばれるマルチモーダルなデータセットを構築.MUGENには375kのビデオ・音声・言語データが含まれている.
マルチモーダルな大規模データセットを自動で生成可能な点は今後の研究に役立つと考えられる.