#387
summarized by : hisaka koji
UC2: Universal Cross-Lingual Cross-Modal Vision-and-Language Pre-Training

どんな論文か?

機械翻訳を用いた初のクロスリンガル・クロスモーダル表現学習のフレームワークであるUC2を導入
placeholder

新規性

多言語V+Lコーパスを構築し,画像と英語の両方に焦点を当てて表現を共同で学習する,初めてのMT支援型クロスリンガル・クロスモーダル事前学習フレームワークUC2を提案する. 新しい事前学習タスク「Masked Region-to-Token Language Modeling」と「Visual Translation Language Modeling」を提案する。

結果

多言語画像-テキスト検索とVQAのベンチマークにおいて、新たな技術水準を達成した。

その他(なぜ通ったか?等)