随着开源LLM越来越成熟,业务接入LLM推理也成为必然,如何选模型大小和显卡,主要看下面这些。
一、选GPU显卡
在选择显卡进行大型语言模型推理时,主要要看下面几个指标:
1、 VRAM(视频随机存取存储器):
VRAM 的容量直接影响您能够加载的模型的大小。大型语言模型需要大量的内存来存储权重和进行计算。
至少12 GB VRAM 是推荐的起点,更大的模型可能需要 24 GB 或更多。
2、 CUDA核心数
CUDA核心数越多,表示 GPU 在执行并行运算时的能力越强。
大量的 CUDA核心有助于提高处理大型神经网络的速度。
常见显卡的配置及价位
以下是一些常见 NVIDIA 显卡系列的比较表,主要依据 VRAM 容量和 CUDA 核心数量这两个关键指标。
请注意,这些值是每个系列中典型型号的数据,并不代表每款具体显卡的全部配置。
显卡系列 | 典型示例 | VRAM (GB) | CUDA核心数量 | 价位及定位 |
---|---|---|---|---|
GTX 16 | GTX 1660 Ti | 6 | 1536 | 1K左右,没有 Tensor核心,低端游戏和基本计算。 |
RTX 20 | RTX 2080 Ti | 11 | 4352 | 2~3K,高端游戏和基本AI/ML应用。 |
RTX 30 | RTX 3080 | 10 | 8704 | 3~4K,高性能游戏和专业级AI/ML应用 |
RTX 40 | RTX 4090 | 24 | 16384 | 2W左右,极端性能游戏和顶级AI/ML应用 |
Tesla A100 | Tesla A100 | 40/80 | 6912 | 10W+, 数据中心,高性能计算和深度学习 |
H100 | Hopper H100 | 80 | 16896 | 10W+, 超高性能计算,AI研究和数据分析 |
--
上表中 Tesla A100 的 CUDA 核心数小于 RTX 4090,但这并不意味着在大数据运算中更好。
- A100内存容量和带宽更大;
- A100 的张量核心(Tensor Cores)和稀疏张量核心(Sparsity-enabled Tensor Cores)专为 AI 和机器学习计算优化,提供了比传统 CUDA 核心更高的效率和吞吐量;
- A100 可以虚拟化为多达七个独立的 GPU,允许多个任务同时在一个物理 GPU 上高效运行。
A100 在需要大规模并行处理和高速内存的环境中,具有 4090 不可比拟的性能优势。
二、选模型大小
从模型尺寸来说,不同尺寸的模型对显卡的概略需求如下:
模型参数 | 推荐硬件 | 典型显存需求 | 使用场景 |
---|---|---|---|
2B(20亿参数) | 笔记本及部分高性能手机 | 适用于低规格设备,需模型剪枝和量化 | 优化后的低端设备推理 |
7B(70亿参数) | 消费级GPU,如NVIDIA RTX 2070或2080 | 8GB至10GB | 适用于普通消费者的中等规模模型 |
70B(700亿参数) | 高端GPU如NVIDIA RTX 3090,A6000 | 24GB及以上 | 需要高端设备的大规模模型,适合推理优化 |
400B(4000亿参数) | 多GPU或专用AI加速器如NVIDIA DGX系统 | 多个GPU,每个GPU具有高内存容量 | 需要数据中心级硬件的极大规模模型 |
--
这些硬件需求会随着模型优化技术的进步而变化。例如,通过模型压缩和高效的推理框架,可以大幅降低运行大型模型所需的资源。
总结
从上面的配置和价格看,业务要接入本地LLM推理,目前最合适的选择应该是:
- 7~8B的模型;
- 消费级GPU: RTX 20~30 系列的显卡, 2~4K的费用。
标签:
ai
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 记一次.NET内存居高不下排查解决与启示
2023-04-29 法律法规数据向量化
2022-04-29 向量的点积
2011-04-29 Android到底那个Acitivity启动
2011-04-29 Android 任务共用性Affinity
2011-04-29 Android四种Activity的加载模式
2011-04-29 Android Application Task Activities的关系