#914
summarized by : Shuhei M Yoshida
Heterogeneous Knowledge Distillation Using Information Flow Modeling

どんな論文か?

知識蒸留 (KD)に関する論文。中間層も使うタイプのKDは、教師モデルと生徒モデルのネットワーク構造が大幅に異なる場合に適用することができなかった。また、学習の段階に応じて知識のやり取りの強度を調整するといったことはこれまでなされてこなかった。これらの課題を解消することが本論文の目的である。
placeholder

新規性

補助的な教師モデルを導入し、教師モデルにおける情報の流れを生徒モデルがより学習しやすくなるようなKDの手法を提案。また、学習初期のcritical periodにより効果的に教師モデルの振る舞いを真似られるよう、critical-learning aware optimizationを提案。

結果

4つのベンチマークで提案手法の有効性を検証。

その他(なぜ通ったか?等)