Learning to Scale Multilingual Representations for Vision-Language Tasks

#134

summarized by : Shintaro Yamamoto

Andrea Burns, Donghyun Kim, Derry Wijaya, Kate Saenko, Bryan A. Plummer

どんな論文か？

多言語に対応したmultilingual vision-languageモデルでは，言語数に応じてパラメータを過剰に増やすもしくはモデル性能を下がるというトレードオフが存在した．モデル性能を下げることなく多言語に対応するモデルScalable Multilingual Aligned Language Representation (SMALR)を提案．

新規性

SMALRでは，単語のembeddingを言語に依らないものと言語特有のものに分けて考えることで，言語数が増えた際のパラメータ増加を抑制する．異なる言語の組み合わせからマスクを予測するMasked Cross-Language Modelingや翻訳しても予測結果が類似するようにするCross-Lingual Consistencyなどを導入．

結果

従来手法と比べて、1/5のパラメータで3-4%の精度向上を実現した．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．