Distilling Cross-Task Knowledge via Relationship Matching

#396

summarized by : 岡本大和

Han-Jia Ye, Su Lu, De-Chuan Zhan

どんな論文か？

TeacherモデルとStudentモデルのタスクが異なる場合（Cross-Task）の蒸留手法を提案。 Embedding部分は（Triplet-Lossと似た要領で）データから抽出した特徴量の位置関係がTeacherモデルと一致するよう学習。 Classifier部分は、Teacherモデルにクラス代表点と入力データの距離に基づいたSoftmax出力をさせて、これを真似るように学習。

新規性

蒸留手法において異なるタスクを想定した問題設定が珍しい。近い研究は存在するようだがEmbedding部分の蒸留に留まっていた。Classifier部分までCross-Taskで蒸留する研究は新しい様子。一方、３つのデータ位置関係を利用したTriplet Loss（論文中ではAligning Triplet）や、クラス代表点を利用する細かい手法部分は、従来研究をうまく組み合わせたと言える。

結果

・実験にはCaltech-UCSD Birds-200-20を使用・TeacherとStudentは100クラスの鳥識別をするモデル・重複するクラスの割合を変更させながら実験従来のEmbedding部分の蒸留＋FineTuneよりも提案手法の方が蒸留後の性能が高かった。さらに、TeacherとStudentが同一タスクの従来問題設定でも蒸留後の性能が従来研究を上回ったと報告。

その他（なぜ通ったか？等）

・タスク設定が（現段階では）珍しい・Classification部分まで蒸留する手法が新しい・実験で従来研究を上回った・タスクが同一の場合でも成果を挙げるなど、汎用性で使い勝手の良い手法であることをアピールした

このページで利用されている画像は論文から引用しています．