[本科项目实训] 模型量化技术
概述
模型量化作为一种能够有效减少模型大小,加速深度学习推理的优化技术,主要包含 8/4/2/1 bit等精度设置。在 8-bit 低精度推理中, 我们将一个原本 FP32 的 weight/activation 浮点数张量转化成一个 int8/uint8 张量,从而减少内存带宽和存储空间,并提高系统吞吐量降低系统时延。[2] 中具体给出了经典量化算法的实现,这里不再展开。
使用
在本次项目使用的transformers
库中,可以通过以下函数进行量化:
model = model.quantize(model_args.quantization_bit)
我们尝试使用该技术并进行对比,模型表现前后差异不大。但模型所需要的显存大幅降低,可以更便于部署在CPU等设备上,在实际使用场景中有很大的运用价值。
参考资料
[1] 深度学习模型量化(低精度推理)大总结_深度学习 量化-CSDN博客
[2] 人工智能 - LLM 大模型学习必知必会系列(六):量化技术解析、QLoRA技术、量化库介绍使用(AutoGPTQ、AutoAWQ) - 汀NLP - SegmentFault 思否
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律