[本科项目实训] 模型量化技术

概述

模型量化作为一种能够有效减少模型大小,加速深度学习推理的优化技术,主要包含 8/4/2/1 bit等精度设置。在 8-bit 低精度推理中, 我们将一个原本 FP32 的 weight/activation 浮点数张量转化成一个 int8/uint8 张量,从而减少内存带宽和存储空间,并提高系统吞吐量降低系统时延。[2] 中具体给出了经典量化算法的实现,这里不再展开。

使用

在本次项目使用的transformers库中,可以通过以下函数进行量化:

model = model.quantize(model_args.quantization_bit)

我们尝试使用该技术并进行对比,模型表现前后差异不大。但模型所需要的显存大幅降低,可以更便于部署在CPU等设备上,在实际使用场景中有很大的运用价值。

参考资料

[1] 深度学习模型量化(低精度推理)大总结_深度学习 量化-CSDN博客

[2] 人工智能 - LLM 大模型学习必知必会系列(六):量化技术解析、QLoRA技术、量化库介绍使用(AutoGPTQ、AutoAWQ) - 汀NLP - SegmentFault 思否

posted @   yicheng_liu0219  阅读(30)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示