- …
- …
#387
summarized by : hisaka koji
新規性
多言語V+Lコーパスを構築し,画像と英語の両方に焦点を当てて表現を共同で学習する,初めてのMT支援型クロスリンガル・クロスモーダル事前学習フレームワークUC2を提案する.
新しい事前学習タスク「Masked Region-to-Token Language Modeling」と「Visual Translation Language Modeling」を提案する。
結果
多言語画像-テキスト検索とVQAのベンチマークにおいて、新たな技術水準を達成した。
その他(なぜ通ったか?等)
- …
- …