#784
summarized by : Kiro Otsu
Adaptive Loss-Aware Quantization for Multi-Bit Networks

どんな論文か?

重みと活性化関数をマルチバイナリに量子化することで、DNNを圧縮する手法(Multi-bit networks:MBN)の提案。計算リソースの弱い環境でも推論速度を速め、実装時の必要ストレージを削減できる。
placeholder

新規性

従来のMBN量子化では、全精度重みを再構成するために誤差を最小化することで量子化器を訓練していたが、ALQでは、勾配近似も全精度維持も行わずに、量子化に伴う損失関数の誤差を直接最小化する。ALQはまた、適応的なビット幅、滑らかなビット幅の削減、反復的な訓練された量子化などの戦略を利用して、精度を落とさずにネットワークサイズを小さくすることができる。

結果

一般的な画像データセットでの実験結果から,ALQ はSOTAな圧縮ネットワークを上回る 保存性と精度の両方を兼ね備えている。

その他(なぜ通ったか?等)