- …
- …
#37 #emnlp2019
summarized by : meshidenn
概要
BERTのself-attentionにたいして、調査を行った論文。attentionにかんして、タスクごとのパターン、言語的な特徴、タスク毎に重視するパターンの調査を行った。
新規性
attentionについて細かく見ている点。
結果
タスクによって、attentionパターンはちがう。しかし、多くのタスクでSEPが強くattentionされる。
何らかの言語的特徴をattentionは捉えている。
ある層のattentionを平準化したところ精度が上がるものがあるので、BERTはbaseの大きさで、overparametarize。
pre-trainなしだとGLUEで精度がでない。
- …
- …