- …
- …
#601
summarized by : Takehiko Ohkawa
どんな論文か?
NASとKnowledge Distillation(KD)を合わせたような論文.従来のパラメータの上流だけでなく,そのアーキテクチャ自体もteacher自体に蒸留しようというアイデア.
新規性
teacherモデル内部に最良のstudentモデルが存在するという仮説のもとに探索的にそのarchitectureを求めた.
結果
単純なNAS+KD手法よりもImageNet分類タスクで高精度を記録した.
その他(なぜ通ったか?等)
- …
- …