Jointly Masked Sequence-to-Sequence Model for Non-Autoregressive Neural Machine Translation

summarized by : Tosho Hirasawa

Junliang Guo, Linli Xu, Enhong Chen

非自己回帰MTにおける multimodality problem (特に繰り返し) を解消したい

decoder 側のパラメータを bigram な Masked 言語モデルを使い、MT と同時に学習することで、同じ単語が繰り返し出力される問題を低減させた。

評価セットにおける繰り返しの回数が 2.30 から 0.17 へと顕著に減少した。また、モデルの全体的な性能も向上した。

このページで利用されている画像は論文から引用しています．