开源大模型占GPU显存计算方法

运行大模型GPU占用计算公式：

\(M=\frac{(P * 4B)}{32 / Q} * 1/2\)

经常看到量化大模型后面带着q2_k 、ft16 、 q5_k_s 、q8_0 等写法。这类写法代表着大模型的量化后的指标，释义如下：

包括q4_0、q4_1、q8_0等方法。

如q4_0。代表模型位数=4，0表示保留0位小数。即数据会被量化到0-255之间的整数

如q2_k、q5_k_s 等方法。实际上就是不同层用不同精度量化，以比传统量化更智能的方式分配bit。解压缩方式与传统量化类似,同样快速

posted @ 2024-09-08 22:42 锅总的程序人生阅读(1572) 评论(0) 编辑收藏举报

刷新页面返回顶部