Revisiting Knowledge Distillation via Label Smoothing Regularization

#112

summarized by : Hiroki Yamamoto

Li Yuan, Francis EH Tay, Guilin Li, Tao Wang, Jiashi Feng

どんな論文か？

Knowledge Distillationに関する論文通常のKnowledge DistillationはTeacher（T)からStudent（S）への蒸留を行っているが、その後、S->Tでも精度が向上し、PoorなT->Sでも精度が上がる。また、自己学習を利用した実験を行い、Label Smoothingと比較して精度向上

新規性

Knowledge Distillationに関する知見「どんな論文」を参照

結果

・T->S->T'だと、SとT'の精度も向上する・PoorT->Sだと、Sの精度が上がる。・自己学習（Teacher Free）の場合でも、精度が上がる。

その他（なぜ通ったか？等）

実装：https://github.com/yuanli2333/Teacher-free-Knowledge-Distillation

このページで利用されている画像は論文から引用しています．