Knowledge Distillation As Efficient Pre-Training: Faster Convergence, Higher Data-Efficiency, and Better Transferability

#45

summarized by : 田所龍

Ruifei He; Shuyang Sun; Jihan Yang; Song Bai; Xiaojuan Qi

どんな論文か？

近年事前学習データセットというのは巨大化し、また、非公開データセットであることも多いので、あらゆるアーキテクチャにおいて事前学習モデルを構築することが難しくなってきている。そこで、従来手法を改良し、事前学習に適した知識蒸留の手法を開発した。この手法によって、すでに存在する事前学習モデルから新たなモデルへと、事前学習した特徴表現を転移することを可能とした。

新規性

従来の知識蒸留であると、教師モデルのembeddingを線形層に通した後の表現を、生徒モデルが学習している。線形層を通すことにより特徴表現を直接学習することができず、教師モデルの事前学習した特徴表現をうまく生徒モデルへと蒸留することができなかった。提案手法では、特異値分解と Power Temperature Scalingを組み合わせることによって、事前学習知識の転移を可能とした。

結果

画像分類・セマンティックセグメンテーション・物体検出の3つのタスクにおける9つのデータセットにおいて、通常の教師あり事前学習と比較して、1/10のデータ数・10~20%の学習時間で同等のfinetuning性能を達成した。

その他（なぜ通ったか？等）

なぜ通ったか？：事前学習コストを削減するという目的設定がわかりやすい。また、計算時間、必要なデータを大幅に削減できるという結果が優れている。 github link：https://github.com/CVMI-Lab/KDEP

このページで利用されている画像は論文から引用しています．