- …
- …
#933
summarized by : Satoshi Inose
どんな論文か?
teacher-student frameworkの汎用性/頑健性を高めるため、Instance Relationship Graph(IRG)というKnowledge Distillation(蒸留)手法を提案した。IGRでは、教師ネットワークに複数の訓練データを与えて出力/中間表現の集合を生成し、集合要素同士の関係を生徒ネットワークに学習させた。
新規性
従来手法では、教師モデルの出力/中間表現の生 or 変換値、attentionの出力、変換行列等を学習させていた。また、いずれも1個の訓練サンプルから1個の特徴を計算して生徒モデルの学習に使っていた。共通の問題として、教師/生徒モデルの構造が異なると上手く機能しなかった。本論文では複数の訓練データに対する出力/中間表現の集合から1個のIRGを計算して学習に利用し、適用範囲と安定性を高めている。
結果
CIFAR10、CIFAR100-coarse、CIFAR10-fineを対象とした画像分類タスクにおいて、大規模なResNet / ShuffleNetを教師モデル、小規模なResNetを生徒モデルとして比較実験し、SOTAとして設定した4種のモデル全てに精度で優位であった。
その他(なぜ通ったか?等)
- …
- …