#30
summarized by : K. Nakata
Towards Mixed-Precision Quantization of Neural Networks via Constrained Optimization

どんな論文か?

量子化における混合ビット精度の割り当てを、モデルサイズをターゲット値以下に抑えるという条件下で、量子化により発生する出力誤差を最小化するというナップザック問題として定式化し、greedy searchで解いた論文。目的関数を2次のテーラー展開で近似しつつ、2次の項に含まれるヘッセ行列をヤコビ行列の成分(1次微分)を使って効率的に計算する方法を提案し、最適化探索にかかる時間を短縮している。
placeholder

新規性

ビット数の割り当ての最適化をナップザック問題(条件付き離散最適化問題)として扱い、greedy searchで見つけ出す方法を提案している。加えて、量子化の出力層への影響をヘッセ行列とヤコビ行列で効率的に計算する方法を提案し、最適化探索にかかる時間の短縮を図っている。

結果

ResNet-18/50, MobileNet-V2に対して32ビットから混合2~4ビット精度に量子化したときのImageNetの認識精度の劣化が従来手法(HAQ, AutoQ, HAWQ等)よりも小さい(多くの条件で1ポイント以内)。また最適化にかかる時間も従来の強化学習ベースの探索方法(AutoQ)ではRTX2080Tiで1000時間以上の見積もりであるのに対し、提案手法では数分に短縮できる。

その他(なぜ通ったか?等)