#576
summarized by : Shuhei M Yoshida
Explaining Knowledge Distillation by Quantifying the Knowledge

どんな論文か?

知識蒸留とは、教師モデルの出力を生徒モデルに学習させることで、生徒モデルに元の訓練データを与えるよりも効率的に高い精度を出すことができる手法である。知識蒸留に対する理論的な理解は進んでいないが、本論文では知識蒸留が有効である理由について3つの仮説を立て、実験的に検証する。
placeholder

新規性

知識蒸留が有効である理由として、3つの仮説を提唱。(a) 知識蒸留により、生徒モデルはより多くの「視覚的概念」を学習できる。(b) 通常の学習では「視覚的概念」を順次学習していくのに対し、知識蒸留では同時に学習できる。(c) 知識蒸留では通常の学習よりも回り道せずに最適化が進行する。 これらの仮設を検証するために、「視覚的概念」等の定量的な指標を提案し、実験的に計測。仮設の検証を行った。

結果

複数のDNNモデルとデータセットで通常の学習と知識蒸留を行い、提案した指標の計測を実施。その結果、仮説と整合する結果を得た。

その他(なぜ通ったか?等)

著者らの仮説を言葉通りの意味に捉えた時、著者らが提案した指標を計測することでそれらの仮説を検証できたことになるのかどうかは議論の余地があると思われる。仮説や実験結果の解釈より、指標の定義と実験内容・結果という事実の部分に、DNNの振る舞いを理解する上で一定の価値はあるか。