#474
summarized by : 金城 忍
Wasserstein Contrastive Representation Distillation

どんな論文か?

Teacher-Student学習を、Wassersteinの双対問題として捉え、両ネットワークの汎化誤差の差を小さくする一方で、相互情報を大きくすることで、両者で抽出される特徴量の分布を近づける同時に、両方のネットワークの分布の違いを小さくしつつ知識蒸留をする提案

新規性

Teacher-Student学習を双対問題として捉えたという点で新規

結果

CIFAR-100を使用して、Teacher、Studentのベースアーキテクチャに様々なものを使用した結果、全てのパターンにおいて提案手法が既存手法より良い結果を達成し、特にResNet32+ResNet8及びWRN-40+ShuffleNetV1に提案手法とオリジナルの知識転移のアンサンブル学習で良い結果となった

その他(なぜ通ったか?等)