#134
summarized by : Shintaro Yamamoto
Learning to Scale Multilingual Representations for Vision-Language Tasks

どんな論文か?

多言語に対応したmultilingual vision-languageモデルでは,言語数に応じてパラメータを過剰に増やすもしくはモデル性能を下がるというトレードオフが存在した.モデル性能を下げることなく多言語に対応するモデルScalable Multilingual Aligned Language Representation (SMALR)を提案.
placeholder

新規性

SMALRでは,単語のembeddingを言語に依らないものと言語特有のものに分けて考えることで,言語数が増えた際のパラメータ増加を抑制する.異なる言語の組み合わせからマスクを予測するMasked Cross-Language Modelingや翻訳しても予測結果が類似するようにするCross-Lingual Consistencyなどを導入.

結果

従来手法と比べて、1/5のパラメータで3-4%の精度向上を実現した.

その他(なぜ通ったか?等)