- …
- …
#135 #acl2019
summarized by : ebihara
概要
ebihara
新規性
Transformerの計算量を削減させる論文。具体的にはattention部分(keyとqueryの掛け合わせの部分)に[0, 1]の重みをかけてattentionするスパンを調節する。その重みの更新を2パターン用意しており、Adaptive attention spanとDynamic attention spanと論文で紹介されている。Adaptiveの方はlossを計算し、通常の更新方法で更新する。Dynamicの方はinput xに対してSσ(vx + b)で導出する。
結果
attentionの計算量を減少させる
- …
- …