summarized by : ebihara
Adaptive Attention Span in Transformers

概要

ebihara
placeholder

新規性

Transformerの計算量を削減させる論文。具体的にはattention部分(keyとqueryの掛け合わせの部分)に[0, 1]の重みをかけてattentionするスパンを調節する。その重みの更新を2パターン用意しており、Adaptive attention spanとDynamic attention spanと論文で紹介されている。Adaptiveの方はlossを計算し、通常の更新方法で更新する。Dynamicの方はinput xに対してSσ(vx + b)で導出する。

結果

attentionの計算量を減少させる