- …
- …
#91 #acl2020
summarized by : Tosho Hirasawa
概要
知識蒸留されたコーパスを使用した非自己回帰モデルの訓練では、教師モデルのトークンレベルの出力を使うため、 教師モデルの知識の一部しか転移できない。
新規性
教師モデルを Energy 関数として使用し
、NAR モデルの出力を評価する。これにより、教師モデルの出力分布に関する知識を非自己回帰モデルが学習することができる。また、非自己回帰モデルで必要であった対訳コーパスの蒸留が不要となった。
結果
ベースラインモデルから大幅な性能向上が見られた(28.25 -> 31.99)。特に、Ro-En では AR モデルとほぼ同等の性能(ENGINE: 33.16, AR: 33.33)を示した。また、実験を通して、非自己回帰モデルと Energy 関数の最適なつなぎ方を示した。
- …
- …