M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-Training

#570

summarized by : Shintaro Yamamoto

Minheng Ni, Haoyang Huang, Lin Su, Edward Cui, Taroon Bharti, Lijuan Wang, Dongdong Zhang, Nan Duan

どんな論文か？

Vision and languageの事前学習モデルを，多言語に拡張したMultitask Multilingual Multimodal Pre-trained model (M3P)を提案した．

新規性

従来の事前学習用データは英語以外数が不十分であるため，英語＋画像の入力に加えて2種類の入力を考える．Multimodal code-switched streamでは，英語＋画像の入力に対して一部の英単語を同じ意味の他の言語のものに置き換える．Monomodal multilingual streamでは，他の言語のコーパスを用いて言語のみを入力．

結果

Multi30KとMSCOCOを用いた検索タスクにおいて，英語以外の言語において最高性能を記録した．

その他（なぜ通ったか？等）

https://github.com/microsoft/M3P

このページで利用されている画像は論文から引用しています．