summarized by : Tosho Hirasawa
A Study of Non-autoregressive Model for Sequence Generation

概要

Non-autoregressive モデルが Autoregressive モデルと同等の性能を達成できるタスクとそうではないタスクの違いを明らかにしたい
placeholder

新規性

入力と出力を1つの系列とみなし、マスクされた出力の要素を予測する Conditional Masked prediction with Mixed Attention (CoMMA) を提案し、予測時の、出力系列への依存性を定量化した。

結果

NAR モデルが有効なタスク(Text-to-Speach, TTS)では、出力系列への依存性が低く、有効ではないタスク(Aotomatic speech recognition, ASR)では依存性が高いことを示した。また、MTについて、知識蒸留などが出力系列への依存性を押し下げる働きがあることを示した。