Towards Unified INT8 Training for Convolutional Neural Network

#887

summarized by : Shuhei M Yoshida

Feng Zhu, Ruihao Gong, Fengwei Yu, Xianglong Liu, Yanfei Wang, Zhelong Li, Xiuqi Yang, Junjie Yan

どんな論文か？

通常は浮動小数点数を用いて行われるDNNの学習を整数型で行う、学習の量子化に関する論文。推論の量子化に比べて、学習の量子化は最適化を不安定にする傾向があり、限られたモデルやタスクに対してしか適用できなかった。これに対して、本論文はより汎用的な手法の開発を目標とする。

新規性

推論に比べて学習の量子化が困難な原因として、勾配の分布が持つ4つの特性を明らかにした。また、理論的に学習の安定性を評価、これらの知見に基づき、量子化方法を適応的に決めるDirection Sensitive Gradient Clippingと、学習率を適応的に決めるDeviation Counteractive Learning Rate Scalingを提案。

結果

画像分類（CIFAR10, ImageNet）のみならず、これまで量子化が適用できなかった物体検知（PascalVOC, COCO）でも量子化した学習に成功。いずれのモデルでも浮動小数点数を用いた場合に匹敵する精度を達成、学習時間も20％以上削減した。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．