HAWQ: Hessian AWare Quantization of Neural Networks With Mixed-Precision

概
HAWQ (Hessian AWare Quantization)

Dong Z., Yao Z., Gholami A., Mahoney M. W. and Keutzer K. HAWQ: Hessian aware quantization of neural networks with mixed-precision. ICCV, 2019.

概

本文利用 Hessian 的 top eigenvalues 来定位对应 block 所需要的量化 bitwidth, 并利用 multi-state fin-tuning 恢复精度.

HAWQ (Hessian AWare Quantization)

上图展示了, 不同 block 所对应的首特征值以及在添加扰动下损失的变化情况. 很明显, 首特征值越大的 block 往往对于扰动更加敏感, 所以理应用更多的 bitwidth 去量化.
于是, 作者采用如下的指标 ( $\lambda_i$ 表示第 $i$ 个 block 的 Hessian 矩阵的首特征值, $n_i$ 表示 block 中的参数量):

$S_i = \lambda_i / n_i,$
对不同 Block 进行排序, 然后靠前的采用更大的 bitwitdth. 即首特征值越大/参数量越小的 block 用更大的 bitwidth 进行量化.
之后, 通过 multi-stage fine-tuning 来恢复精度, 微调的顺序根据误差来排序:

$\Omega_i = \lambda_i \|Q(W_i) - W_i\|_2^2.$

posted @ 2025-01-03 16:53 馒头and花卷阅读(14) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration

· Incremental Network Quantization Towards Lossless CNNs with Low-Precision Weights

· cs294-ai-sys2022 lectures11 reading

· L2G3-LMDeploy 量化部署进阶实践

· 模型量化-嵌入式深度学习4

阅读排行：
· Manus重磅发布：全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后，我竟然真的恢复了删除的微信聊天记录！
· 没有Manus邀请码？试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix