ENGINE: Energy-Based Inference Networks for Non-Autoregressive Machine Translation

summarized by : Tosho Hirasawa

Lifu Tu, Richard Yuanzhe Pang, Sam Wiseman, Kevin Gimpel

知識蒸留されたコーパスを使用した非自己回帰モデルの訓練では、教師モデルのトークンレベルの出力を使うため、教師モデルの知識の一部しか転移できない。

教師モデルを Energy 関数として使用し、NAR モデルの出力を評価する。これにより、教師モデルの出力分布に関する知識を非自己回帰モデルが学習することができる。また、非自己回帰モデルで必要であった対訳コーパスの蒸留が不要となった。

ベースラインモデルから大幅な性能向上が見られた（28.25 -> 31.99）。特に、Ro-En では AR モデルとほぼ同等の性能（ENGINE: 33.16, AR: 33.33）を示した。また、実験を通して、非自己回帰モデルと Energy 関数の最適なつなぎ方を示した。

このページで利用されている画像は論文から引用しています．