UC2: Universal Cross-Lingual Cross-Modal Vision-and-Language Pre-Training

#387

summarized by : hisaka koji

Mingyang Zhou, Luowei Zhou, Shuohang Wang, Yu Cheng, Linjie Li, Zhou Yu, Jingjing Liu

どんな論文か？

機械翻訳を用いた初のクロスリンガル・クロスモーダル表現学習のフレームワークであるUC2を導入

新規性

多言語V+Lコーパスを構築し，画像と英語の両方に焦点を当てて表現を共同で学習する，初めてのMT支援型クロスリンガル・クロスモーダル事前学習フレームワークUC2を提案する．新しい事前学習タスク「Masked Region-to-Token Language Modeling」と「Visual Translation Language Modeling」を提案する。

結果

多言語画像-テキスト検索とVQAのベンチマークにおいて、新たな技術水準を達成した。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．