summarized by : Shintaro Yamamoto
Are Pretrained Convolutions Better than Pretrained Transformers?

概要

事前学習言語モデルの多くは,BERTに代表されるようにTransformerベースのものが主流である.一方で,CNNベースの事前学習言語モデルについては検討されてこなかった.そこで,事前学習はCNNベースの言語モデルに対しても有効であるかを検証する.
placeholder

新規性

Sequence-to-sequence型のCNNモデルを構築し,T5と類似した方法によりモデルを事前学習する.8種類のデータセット/タスクでモデルを評価することにより,CNNの事前学習の有効性や利点などの特徴を分析した.

結果

8種類のデータセットのうち7種類においてTransformerベースのモデル(T5)を上回る性能を確認し,CNNベースのモデルにおいても事前学習が有効であると確認.CNNベースのモデルはTransformerと比べ計算速度が速いだけでなく,系列長が長い入力に対してもスケールすることを示した.