Heterogeneous Knowledge Distillation Using Information Flow Modeling

#914

summarized by : Shuhei M Yoshida

Nikolaos Passalis, Maria Tzelepi, Anastasios Tefas

知識蒸留 (KD)に関する論文。中間層も使うタイプのKDは、教師モデルと生徒モデルのネットワーク構造が大幅に異なる場合に適用することができなかった。また、学習の段階に応じて知識のやり取りの強度を調整するといったことはこれまでなされてこなかった。これらの課題を解消することが本論文の目的である。

補助的な教師モデルを導入し、教師モデルにおける情報の流れを生徒モデルがより学習しやすくなるようなKDの手法を提案。また、学習初期のcritical periodにより効果的に教師モデルの振る舞いを真似られるよう、critical-learning aware optimizationを提案。

4つのベンチマークで提案手法の有効性を検証。

このページで利用されている画像は論文から引用しています．