第九篇：大模型压缩训练（模型量化、参数剪枝、知识蒸馏）

模型压缩简介

模型压缩目标：
- 减少模型显存占用
- 加快推理速度
- 减少精度损失
模型压缩通常处于模型训练和生产部署之间的阶段，他在模型训练完成后，准备将模型部署到目标环境之前进行
模型压缩算法：
- 线性量化或非线性量化：1/2bits, int8 和 fp16等
- 结构化剪枝或非结构化剪枝：deep compression, channel pruning 和 network slimming等
- 知识蒸馏：squeeze-net, mobile-net, shuffle-net等

模型量化（quantization）

通过减少模型参数的表示精度来降低模型的存储空间和计算复杂度

混合精度（Mixed precision）在模型中使用 FP32 和 FP16 。 FP16 减少了一半的内存

大小，但有些参数或操作符必须采用 FP32 格式才能保持准确度

低精度（Low precision）可能是最通用的概念。常规精度一般使用 FP32（32位浮点，单

精度）存储模型权重；低精度则表示 FP16（半精度浮点），INT8（8位的定点整数）等等

数值格式。不过目前低精度往往指代 INT8。

根据存储一个权重元素所需的位数，还可以包括：

① 二值神经网络：在运行时权重和激活只取两种值（例如 +1，-1）的神经网络，以及

在训练时计算参数的梯度。

② 三元权重网络：权重约束为+1,0和-1的神经网络。

③ XNOR网络：过滤器和卷积层的输入是二进制的。 XNOR 网络主要使用二进制运算来近

似卷积

量化之后为什么反量化

模型内部参数进行存储的时候，会将其分为两部分，正在参与计算的参数和没有参与计算的参数

没有参与计算的参数用16位表示，节约额显存，正在参与计算的参数用32位表示，以提高模型的精度

量化原理

量化：将一组数据限制到可度量的范围内

数据分为两种：有范围的、没有范围的

参数剪枝（pruning）

模型剪枝研究模型权重的冗余，并尝试删除/修剪冗余和非关键的权重

非结构化剪枝（unstructured pruning）

方法：随机对独立权重或者神经元链接进行剪枝
优：剪枝算法简单，模型压缩比高
缺：精度不可控，剪枝后权重矩阵稀疏，可能会破坏模型的整体结构，依赖于特定的算法库或硬件平台的支持

结构化剪枝（structured pruning）

方法：对filter / channel / layer 进行剪枝

优：大部分算法在 channel 或者 layer 上进行剪枝，不会破坏模型整体结构，不依赖于特定的算法库或硬件平台的支持

缺：剪枝算法相对复杂

知识蒸馏（knowledge dististillation）

知识蒸馏在DeepSeek中的核心意义

DeepSeek作为中国人工智能领域的代表性大模型，其训练过程中深度应用了知识蒸馏技术

（Knowledge Dististillation），通过将大模型的知识迁移至小模型，实现了性能与效率

的平衡

1.降低算力与成本

DeepSeek通过蒸馏技术将模型训练成本压缩至OpenAI同类模型的1/20。例如，DeepSeek-V3

仅消耗278.8万GPU小时（成本约557.6万美元），而OpenAI类似模型的训练成本高达数亿美

元49。这种低成本特性使中小企业也能负担高性能AI模型的开发。

2.加速推理与边缘部署

蒸馏后的小模型（如32B/70B版本）推理速度提升3倍以上，延迟从850ms降至150ms，显存

占用从320GB减少至8GB。这使得模型可在手机、工业设备等边缘端实时运行，满足医疗诊

断、自动驾驶等场景的低延迟需求

推动行业应用落地

教育领域：DeepSeek蒸馏模型可快速生成个性化学习内容，根据学生反馈动态调整教学策

略，降低教育平台运营成本。

工业场景：本地化部署的蒸馏模型减少对云端的依赖，数据隐私与响应速度显著提升，助

力智能制造中的质检、供应链优化等任务。

内容创作：AI写作工具结合蒸馏模型，创作效率提升50%，同时API调用成本仅为OpenAI的

1/4，推动新媒体运营与创意产业发展。

4.技术自主可控

面对美国GPU芯片禁运，DeepSeek通过蒸馏技术降低对算力的依赖，结合FP8混合精度训练

和DualPipe流水线机制，在国产芯片（如华为昇腾）上实现高性能推理，增强中国AI产业

的自主可控能力

posted @ 2025-04-12 20:53 猿小姜阅读(121) 评论(0) 收藏举报

刷新页面返回顶部

yuanxiaojiang

第九篇：大模型压缩训练（模型量化、参数剪枝、知识蒸馏）

模型量化（quantization）

量化之后为什么反量化

量化原理

参数剪枝（pruning）

非结构化剪枝（unstructured pruning）

结构化剪枝（structured pruning）

知识蒸馏（knowledge dististillation）

知识蒸馏在DeepSeek中的核心意义

公告

yuanxiaojiang

第九篇：大模型压缩训练（模型量化 、参数剪枝、知识蒸馏）

模型量化（quantization）

量化之后为什么反量化

量化原理

参数剪枝（pruning）

非结构化剪枝（unstructured pruning）

结构化剪枝（structured pruning）

知识蒸馏（knowledge dististillation）

知识蒸馏在DeepSeek中的核心意义

公告

第九篇：大模型压缩训练（模型量化、参数剪枝、知识蒸馏）