#601
summarized by : Takehiko Ohkawa
Search to Distill: Pearls Are Everywhere but Not the Eyes

どんな論文か?

NASとKnowledge Distillation(KD)を合わせたような論文.従来のパラメータの上流だけでなく,そのアーキテクチャ自体もteacher自体に蒸留しようというアイデア.

新規性

teacherモデル内部に最良のstudentモデルが存在するという仮説のもとに探索的にそのarchitectureを求めた.

結果

単純なNAS+KD手法よりもImageNet分類タスクで高精度を記録した.

その他(なぜ通ったか?等)