#570
summarized by : Shintaro Yamamoto
M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-Training

どんな論文か?

Vision and languageの事前学習モデルを,多言語に拡張したMultitask Multilingual Multimodal Pre-trained model (M3P)を提案した.
placeholder

新規性

従来の事前学習用データは英語以外数が不十分であるため,英語+画像の入力に加えて2種類の入力を考える.Multimodal code-switched streamでは,英語+画像の入力に対して一部の英単語を同じ意味の他の言語のものに置き換える.Monomodal multilingual streamでは,他の言語のコーパスを用いて言語のみを入力.

結果

Multi30KとMSCOCOを用いた検索タスクにおいて,英語以外の言語において最高性能を記録した.

その他(なぜ通ったか?等)

https://github.com/microsoft/M3P