- …
- …
#90 #acl2020
summarized by : Tosho Hirasawa
概要
Non-autoregressive モデルが Autoregressive モデルと同等の性能を達成できるタスクとそうではないタスクの違いを明らかにしたい
新規性
入力と出力を1つの系列とみなし、マスクされた出力の要素を予測する Conditional Masked prediction with Mixed Attention (CoMMA) を提案し、予測時の、出力系列への依存性を定量化した。
結果
NAR モデルが有効なタスク(Text-to-Speach, TTS)では、出力系列への依存性が低く、有効ではないタスク(Aotomatic speech recognition, ASR)では依存性が高いことを示した。また、MTについて、知識蒸留などが出力系列への依存性を押し下げる働きがあることを示した。
- …
- …