summarized by : Hideki Tsunashima
Learning Deep Transformer Models for Machine Translation

概要

maguro
placeholder

新規性

Neural Machine Translation(NMT)においてTransformerの層を深くし、Transformer-Bigよりもスコアも高く、1.6倍モデルサイズも小さく、3倍高速で、推論時間も10%早くする手法を提案した論文。

結果

・Residual UnitにおけるSkip Connection(Skip Connectionの提案は2種類)の仕方を改良した点。 ・学習の難しい深いTransformerの学習方法を提案した点。 ・WMT'16 English-German、NIST OpenMT'12 Chinese-English、larger WMT'18 Chinese-EnglishにおいてデファクトスタンダードとなっているTransformer-Bigのスコアを超えた点。