Loading

模型压缩与部署-书生浦语大模型实战营学习笔记5&大语言模型11

大语言模型-11.模型压缩与部署

书生浦语大模型实战营学习笔记4-模型压缩与部署

本文包括第二期实战营的第5课内容,介绍关于模型压缩的相关内容,主要包括、模型量化和模型部署的相关内容。

模型部署

定义:在软件工程中,部署通常指的是将开发完毕的软件投入使用的过程。在人工智能领域,模型部署是实现深度学习算法落地应用的关键步骤。简单来说,模型部署就是将训练好的深度学习模型在
特定环境中运行的过程。

场景

  • 服务器端:CPU部署,单GPU/TPU/NPU部署,多卡/集群部署等
  • 移动端/边缘端:移动机器人,手机等

模型部署的挑战

前向推理计算量大

大模型参数量巨大,前向推理时需要进行大量计算。

这里给出大模型前向推理所需计算量计算公式:

Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020.

\[C_{forward} = 2N + 2n_{layer}n_{ctx}d_{attn} \]

其中,\(N\)为模型参数量,\(n_{layer}\)为模型层数,\(n_{ctx}\)为上下文长度(默认1024),d_{attn}为注意力输出维度。单位:FLOPs per Token

根据OpenAl团队提供的计算量估算方法,20B模型每生成1个token,就要进行约406亿次浮点运算;照此计算,若生成128个token,就要进行5.2万亿次运算。若模型参数规模达到175B(GPT-3),Batch-Size(Bs)再大一点,每次推理计算量将达到千万亿量级。

以NVIDIA A100为例,单张理论FP16运算性能为每秒77.97 TFLOPS(77万亿),性能捉紧。

内存(显存)开销大

\[\text{内存开销 = 模型权重加载 + KV cache} \]

模型权重加载开销

以FP16为例,20B模型仅加载参数就需40G+显存。
目前,以NVIDIA RTX 4060消费级显卡为例(参考零售价¥2399),单卡显存仅有8GB;NVIDIA A100单卡显存仅有80GB。

KV cache

这里的KV指的就是Transformer执行注意力时的key和value。kv缓存是为了避免每次采样token时重新计算键值向量。利用预先计算好的k值和v值,可以节省大量计算时间,尽管这会占用一定的存储空间。

同样地,这里给出 KV cache 显存占用估算公式:

https://zhuanlan.zhihu.com/p/624740065

\[M_{kvcache} = 4b \times n_{layer} \times d_{attn} \times (s+n) \]

其中,\(b\)为batch-size,\(n_{layer}\)为模型层数,d_{attn}为注意力输出维度,\(s\)为输入序列长度,\(n\)为输出序列长度。单位:字节(B)。这前面的系数“4”是因为有k和v这两个向量,而一个fp16向量就占2个字节,并且网络每一层都要缓存这么多个向量,每个向量大小都为\(d_{attn} \times (s+n)\)

以FP16为例,在batch-size为16、输入512 tokens、输出32 tokens的情境下,仅20B模型就会产生10.3GB的缓存。

访存瓶颈

大模型推理是“访存密集”型任务。目前硬件计算速度“远快于”显存带宽,存在严重的访存性能瓶颈,。

以RTX 4090推理175B大模型为例,BS为1时计算量为6.83TFLOPS,远低于82.58 TFLOPs的FP16计算能力:但访存量为32.62 TB,是显存带宽每秒处理能力的30倍。

动态请求

  • 请求量不确定;
  • 请求时间不确定;
  • Token逐个生成,生成数量不确定

这会导致GPU资源利用率下降,导致资源浪费

模型剪枝

模型剪枝

知识蒸馏

知识蒸馏

模型量化

模型量化

模型量化的加速原理并非利用了计算整数比浮点数快,因为实际上量化是以“浮点数量化、整数存储”的方式进行的。这种方式虽然增加了整数反量化到浮点数时的计算量,但是减小了内存的访存量,降低了数据传输所需时间,提升了计算效率。

posted @ 2024-04-10 08:26  vanilla阿草  阅读(42)  评论(0编辑  收藏  举报