AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration
概
随着模型的参数量的增加, 推理成本也在显著增加, 本文提出一种量化方法: AWQ 量化, 以缓解这一问题. 其主要贡献在于对于"重要"权重的特殊处理, 以及 per-channel 的 scaling.
AWQ
-
作者首先发现, 权重中的元素并不是同等重要的, 大约有 1% 的权重, 如果把他们以更高精度的方式保存 (如, FP16), 就能取得显著的效果提升 (上图 (a) -> (b)).
-
但是这种方式有一个显著的缺点, 这种混合精度会使得实际的实现变得异常麻烦, 所以需要另外的手段取解决.
-
一般的对称量化形如:
其中
这里 是量化 Bits.
-
我们可以采用另外一种更加灵活的方式, 考虑只改变其中的一个元素 的量化方式:
这里 . 注意到:
- 所带来的误差是差不多的;
- 由于只改变一个元素, 通常 .
-
当 的时候, 由于 的分布更加均匀地分布在量化区间内, 所以 相较于 通常能够被更加精准地量化.
-
于是, 作者最终的 AWQ 为:
其中 是根据一个比较小的 calibration set 得到的.
代码
分类:
Neural Networks
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
2020-12-03 Robust Pre-Training by Adversarial Contrastive Learning