在一台边缘设备上部署一个已缩放到合适范围的神经网络权重矩阵。网络共有 N 层,每层有 H 个实数权重。每一层必须统一选择一个量化位宽 q,且 q 只能取 2、4、8 三种之一。所有层选择的位宽之和不超过 Qmax。
若某层选择位宽 q,则对该层每个权重 w 执行:
1) 放大并取整:wq = int(w * 2^q)
2) 还原:wr = wq / 2^q
该层的量化误差定义为该层所有权重的 |w - wr| 之和。全网误差为各层误差之和。目标是在总位宽预算不超过 Qmax 的前提下,使全网误差最小。输出最小总误差乘以 100 后向下取整的结果。
