A Study of Non-autoregressive Model for Sequence Generation

#90 #acl2020

summarized by : Tosho Hirasawa

Yi Ren, Jinglin Liu, Xu Tan, Zhou Zhao, sheng zhao, Tie-Yan Liu

概要

Non-autoregressive モデルが Autoregressive モデルと同等の性能を達成できるタスクとそうではないタスクの違いを明らかにしたい

新規性

入力と出力を１つの系列とみなし、マスクされた出力の要素を予測する Conditional Masked prediction with Mixed Attention (CoMMA) を提案し、予測時の、出力系列への依存性を定量化した。

結果

NAR モデルが有効なタスク（Text-to-Speach, TTS）では、出力系列への依存性が低く、有効ではないタスク（Aotomatic speech recognition, ASR）では依存性が高いことを示した。また、MTについて、知識蒸留などが出力系列への依存性を押し下げる働きがあることを示した。

このページで利用されている画像は論文から引用しています．