Knowledge Condensation Distillation

#193

summarized by : Hirokatsu Kataoka

Chenxin Li; Mingbao Lin; Zhiyuan Ding; Nie Lin; Yihong Zhuang; Yue Huang; Xinghao Ding; Liujuan Cao

どんな論文か？

知識蒸留（Knowledge Distillation）の冗長性を解析して、その拡張であるKnowledge Condensation Distillation（KCD）を提案。EMアルゴリズムの枠組みで効率的に学習を行うための知識を適切に分割してStudent Modelに教師を渡すことに成功した。

新規性

知識蒸留の拡張としてKCDを提案したことが新規性である。添付図のように、従来では全ての知識をStudent Modelに与えるが、KCDでは有効ではないと判断された教師は取り除いてコンパクトな教師をStudent Modelに与える。

結果

CIFAR-100/ImageNet-1kデータセットやVGG/ResNet/WideResNet/ShuffleNetネットワークにて評価。従来の知識蒸留よりも学習も効率的ながら精度も高いことを示した。

その他（なぜ通ったか？等）

GitHub: https://github.com/dzy3/KCD

このページで利用されている画像は論文から引用しています．