Variational Information Distillation for Knowledge Transfer

#568

summarized by : Tomoki Tsujimura

Sungsoo Ahn, Shell Xu Hu, Andreas Damianou, Neil D. Lawrence, Zhenwen Dai

どんな論文か？

転移学習の手法であるVariational Information Distillation (VID)フレームワークの提案。転移学習における既存手法では一般的に認められた理論的な背景がなかったが、これに対して提案手法は転移元・先のネットワーク間の相互情報量の最大化を行うことによってこの問題を解決する。相互情報量の最大化は変分下限の最大化によって達成される。

新規性

相互情報量の最大化によって転移学習を行う。相互情報量の考えを取り入れることで、既存の転移学習の手法と異なり情報理論的な背景を持つ。また、提案手法はいくつかの既存手法の一般化であることを示した。

結果

提案手法がいくつかの既存手法の一般化であることを示した。既存手法との比較実験ではSotAな既存手法を上回るスコアを得た。 CIFAR-10タスクでは転移元をCNN、転移先をMLPという異質なネットワーク構造に設定しても転移ができることを示した。このスコアはMLPで報告されているうちで最も高いスコアを有意に上回った。

その他（なぜ通ったか？等）

相互情報量の導入が最近の流れに乗っている。性能向上も達成している。

このページで利用されている画像は論文から引用しています．