Adaptive Attention Span in Transformers

#135 #acl2019

summarized by : ebihara

Sainbayar Sukhbaatar, Edouard Grave, Piotr Bojanowski, Armand Joulin

概要

ebihara

新規性

Transformerの計算量を削減させる論文。具体的にはattention部分(keyとqueryの掛け合わせの部分)に[0, 1]の重みをかけてattentionするスパンを調節する。その重みの更新を２パターン用意しており、Adaptive attention spanとDynamic attention spanと論文で紹介されている。Adaptiveの方はlossを計算し、通常の更新方法で更新する。Dynamicの方はinput xに対してSσ(vx + b)で導出する。

結果

attentionの計算量を減少させる

このページで利用されている画像は論文から引用しています．