#933
summarized by : Satoshi Inose
Knowledge Distillation via Instance Relationship Graph

どんな論文か?

teacher-student frameworkの汎用性/頑健性を高めるため、Instance Relationship Graph(IRG)というKnowledge Distillation(蒸留)手法を提案した。IGRでは、教師ネットワークに複数の訓練データを与えて出力/中間表現の集合を生成し、集合要素同士の関係を生徒ネットワークに学習させた。
placeholder

新規性

従来手法では、教師モデルの出力/中間表現の生 or 変換値、attentionの出力、変換行列等を学習させていた。また、いずれも1個の訓練サンプルから1個の特徴を計算して生徒モデルの学習に使っていた。共通の問題として、教師/生徒モデルの構造が異なると上手く機能しなかった。本論文では複数の訓練データに対する出力/中間表現の集合から1個のIRGを計算して学習に利用し、適用範囲と安定性を高めている。

結果

CIFAR10、CIFAR100-coarse、CIFAR10-fineを対象とした画像分類タスクにおいて、大規模なResNet / ShuffleNetを教師モデル、小規模なResNetを生徒モデルとして比較実験し、SOTAとして設定した4種のモデル全てに精度で優位であった。

その他(なぜ通ったか?等)