[AI/计算机硬件] 部署、训练AI大模型的显卡采购指南 [转]
目录
- 序
- 1 基础指南
- 2 私有化【部署/微调/训练】开源AI大模型的硬件需求
- K FAQ
- U 前沿动态
- Y 推荐文献
- X 参考文献
序
-
截至2025年,全球主流的AI大模型满血版的参数量均已突破百亿级,算力需求正以指数级飙升。特别是 DeepSeek 公司旗下的 R1 系列模型的问世,推动了很多中小企业部署私有化模型的需求。
-
然而,面对动辄数十万上百万元的GPU采购成本,选错一块显卡可能让企业付出高昂的试错代价。
1 基础指南
1.1 训练阶段: 四大核心参数决定成败
🚀 计算能力:GPU的“大脑转速”
- 计算能力的关键指标,核心就是体现在FP16/TF32精度下的浮点运算性能上TFLOPS
例如:NVIDIA H100的FP16算力达756 TFLOPS,比A100提升140%,训练千亿参数模型可缩短40%时间。
- 避坑提示:警惕“纸面算力”,需结合Tensor Core利用率,第三代以上核心优化矩阵运算效率已提升2倍。
📚 显存:模型的“记忆宫殿”
-
容量底线,如果您想微调一个70B参数模型需,至少准备≥80GB显存(如A100 80GB)
-
若使用量化技术,可压缩至40GB(如INT8量化),但损失精度。
-
其次是带宽生死线,HBM2e显存带宽需≥1.5TB/s,避免数据搬运成瓶颈,如H100 的 3.35TB/s 堪称“数据高速公路”。
🎯 多卡互联:打破“通信墙”
- 多卡互联的选型优先级: NVLink全互联(A100 600GB/s)>NVSwitch>PCIe 4.0(64GB/s) 。
通过实测显示,8卡A100通过NVLink训练175B模型,效率比PCIe方案提升70%。
- 但同时也要警惕阉割版,如:A800/H800的互联带宽被限制至400GB/s,大规模集群慎选。
💡 能效比:每度电的算力产出
- 告诉你个冷知识,H100的能效比达1.96 TFLOPS/瓦特,比V100节省45%电费。
- 其次是散热方案,液冷GPU(如HGX H100系统)可降低30%散热功耗,特别适合超算中心。
1.2 推理部署: 三招实现成本与性能的平衡
- 首先,考虑量化加速:榨干每寸硬件潜力
实战方案包括: INT8量化推荐NVIDIA L4 - 274 TOPS ,FP8 推理首选 H100 - 4957 TOPS。
工具链:Tensor RT自动优化可将ResNet-50推理延迟从7ms降至2ms。
- 其次是功耗管控,比如边缘计算的生死线
边缘设备推荐选T4(70W)或Jetson AGX Orin(50W)
云端部署:A10G(150W)性价比最优。
-
最后,还要注意隐藏成本,比如:1台500W GPU五年电费≈2.1万元(按0.8元/度)。
-
建议:中小团队还是【首选云服务商】(如阿里云、腾讯云、华为云等)提供的服务,他们提供了【多种GPU实例规格族】,可以根据具体需求灵活选择。
比如阿里云GN7(A10)按小时计费或包年计费都可以,避免硬件闲置。
因为购买云GPU相对灵活,自建集群【初期投入】就较大,后期几年的维护成本也不低。
1.3 避坑指南
这些细节容易被忽略
-
谨防供应链陷阱:A100/H100受出口管制影响,需确认国产替代方案(如华为昇腾910B,算力≈A100 80%)。
-
兼容性暗雷:检查CUDA版本(需≥11.8支持FP8)、PyTorch版本(2.3+适配H100新特性)。
-
考虑未来扩展性:服务器预留≥8卡槽位,电源功率≥10kW(支持后续升级)。
2025年GPU选购红黑榜
场景 | 首选型号 | 平替方案 | 踩雷型号 |
---|---|---|---|
千亿参数训练 | H100 SXM5 | 昇腾910B集群 | RTX 4090 |
百亿参数推理 | L40S | A10G | T4(过时架构) |
边缘AI | Jetson AGX Orin | 瑞芯微RK3588 | MX350 |
场景 | 推荐型号 | 核心优势 |
---|---|---|
训练 | NVIDIA H100/A100 | 高显存、NVLink全带宽、强浮点性能 |
推理 | NVIDIA L4/T4 | 低功耗、高能效比、支持INT8量化 |
预算有限 | RTX 4090(仅限小模型推理) | 24GB显存、较低成本,但通信带宽不足 |
- 在AI算力的“摩尔定律”加速失效的今天,选对GPU就是抢占先机。
无论你是初创公司还是科技巨头,记住:不买最贵的,只买最适配的。
希望大家让每一分算力的投入都精准命中靶心。
2 私有化【部署/微调/训练】开源AI大模型的硬件需求
- 【部署运行】 ≠【微调/训练】
DeepSeek R1
DeepSeek-R1 版本及差异
目前公开的主要版本包括:
版本 | 参数量 | 架构特性 | 训练数据量 | 支持精度 | 核心创新点 | 核心优势 | 主要局限 |
---|---|---|---|---|---|---|---|
R1-1.5B | 15亿 | 紧凑型Transformer | 800B tokens | FP16/INT8 | 轻量化推理优化 | 超低功耗,支持边缘设备 | 复杂任务能力有限 |
R1-7B | 70亿 | MoE稀疏架构 | 2.6T tokens | FP16/INT4 | 动态专家路由 | 性价比最优,支持移动端部署 | 长文本处理易丢失细节 |
R1-8B | 80亿 | 稠密模型+LoRA适配 | 3.2T tokens | BF16/FP8 | 微调效率提升40% | ||
R1-14B | 140亿 | 混合专家系统 | 5.4T tokens | BF16/动态量化 | 多任务联合训练框架 | 精度与速度完美平衡 | 需专业显卡 |
R1-32B | 320亿 | 分层稀疏注意力 | 12T tokens | BF16/FP8 | 128K上下文窗口 | 支持128K超长上下文 | 部署复杂度高 |
R1-70B | 700亿 | 三维并行架构 | 30T tokens | BF16+张量切片 | 万亿级参数扩展接口 | ||
R1-671B | 6710亿 | 超大规模MoE集群 | 120T tokens | FP8+分布式推理 | 多模态联合推理引擎 | 多模态SOTA性能 | 运维成本超百万美元级 |
关键差异分析
- 模型架构:
- 1.5B/7B采用轻量化设计,面向边缘计算;
- 14B/32B引入混合专家系统,支持长文本处理;
- 70B/671B采用分布式架构,支持多模态扩展。
- 训练成本:
- 1.5B可在单卡RTX 4090完成微调;
- 671B需4096张H100集群训练,单次训练电费超$300万。
- 量化支持:
- 7B支持INT4无损量化至3.2GB显存;
- 70B需FP8精度配合张量并行技术。
模型的优化策略及效果
*优化策略* | *7B版本效果* | *14B版本效果* | *适用场景* |
---|---|---|---|
量化压缩 | INT8下显存降60% | 动态量化提速1.8倍 | 边缘设备实时推理 |
模型剪枝 | 移除20%参数无精度损失 | 结构化剪枝需重训练 | 老旧显卡适配 |
缓存优化 | vLLM服务吞吐提升3x | TGI框架支持连续批处理 | 高并发API服务 |
混合精度 | FP16+CPU Offload | BF16需Ampere架构 | 有限显存环境训练 |
硬件环境需求与显卡支持
部署需求
*版本* | CPU需求 | 内存需求 | 存储 | *显存需求(FP16)* | *最低显卡要求* |
---|---|---|---|---|---|
1.5B | 4C+ 如: i5/Ryzen 5 |
8G+ | 5GB+ 模型文件: 1.5-2GB |
非必需,若需加速可选4GB+显存 | GTX 1650 |
7B | 8C+ 如: i7/Ryzen 7 |
16GB+ | 20GB+ 模型文件:4-5GB |
8GB+ | RTX 2060 8GB |
8B | 略高于7B | 略高于7B | 略高于7B | 略高于7B | RTX 3060 12GB |
14B | 16C+ 如: i9/Ryzen 9 |
32GB+ | 30GB+ | 16GB+ | RTX 3090 24GB RTX 4060Ti 16GB A5000 23GB |
32B | 32C+ 如:Xeon |
64GB+ | 100GB+ | 40GB+ | A100 40GB 或双卡RTX3090 24GB |
70B | 64C+ 如:双路Xeon/EPYC |
128GB+ | 200GB+ | 80GB+ | H100 80GB 或2x A100 40GB 或4x RTX 4090 |
671B | 128C+ | 说法1:256GB+ 说法2:512GB+ |
500GB+ | 多节点分布式训练 | 8xA100 8xH100 |
显卡兼容性
- NVIDIA系列:全系支持Ampere架构(30系及以上),32B版本需计算能力8.0+(A100/H100)
- AMD兼容性:通过ROCm 5.6+可支持7B/14B版本,需MI250X以上显卡
- 国产替代方案:寒武纪MLU370、华为昇腾910B可运行7B量化版
训练需求
*版本* | *硬件配置* | *训练时间(1epoch)* | *显存优化技术* |
---|---|---|---|
1.5B | 1×RTX 4090 | 12小时 | LoRA+梯度检查点 |
7B | 4×A100 80GB | 3天 | ZeRO-3+卸载策略 |
32B | 16×H100 SXM5 | 2周 | 3D并行+混合精度 |
671B | 512×H100 + 800Gbps网络 | 3个月 | 专家并行+分片优化 |
适用场景与版本推荐
根据 Ollama 平台提供的 DeepSeek-R1 模型信息,以下是不同参数量模型的本地部署的适用场景分析。
-
移动端嵌入式场景
-
推荐版本:DeepSeek-R1 1.5B(INT8量化版)
-
低资源设备部署(如树莓派、旧款笔记本)
-
实时文本生成(聊天机器人、简单问答)
-
嵌入式系统或物联网设备
-
-
典型应用:智能家电语音助手、车载语音系统
-
性能指标:Jetson Orin NX上延迟<200ms
-
-
企业级服务场景
-
推荐版本1:DeepSeek-R1 7B
1. 本地开发测试(中小型企业)
2. 中等复杂度 NLP 任务(文本摘要、翻译)
3. 轻量级多轮对话系统
-
推荐版本2:DeepSeek-R1 8B
- 略高于7B的配置(与 7B 相近,略高 10-20%)
-
推荐版本3:DeepSeek-R1 14B(动态量化版)
- 企业级复杂任务(合同分析、报告生成)
- 如:金融风险报告生成
- 长文本理解与生成(书籍/论文辅助写作)
- 如:法律文书审核
- 优势:在GSM8K数学推理测试达81.2%准确率
- 企业级复杂任务(合同分析、报告生成)
-
科研计算场景
-
推荐版本:32B(FP8优化版)
1. 高精度专业领域任务(医疗/法律咨询)
2. 多模态任务预处理(需结合其他框架)
- 推荐版本2:70B
1. 科研机构/大型企业(金融预测、大规模数据分析)
2. 高复杂度生成任务(创意写作、算法设计)
-
核心价值:蛋白质折叠模拟、气象预测模型
-
扩展能力:支持对接PyTorch Geometric科学计算库
-
多模态超算场景
-
推荐版本:671B(分布式推理版)
1. 国家级/超大规模 AI 研究(如气候建模、基因组分析)
2. 通用人工智能(AGI)探索
- 典型应用:核聚变模拟、城市数字孪生
- 硬件需求:需配备InfiniBand HDR网络的超算中心
低成本部署方案
极简部署方案
版本 | 硬件组合 | 优化技术 | 成本估算(USD) |
---|---|---|---|
1.5B | Jetson Orin NX + TensorRT | INT8量化 | $699 |
7B | RTX 4090 + vLLM | AWQ量化+连续批处理 | $2,499 |
14B | 2×RTX 3090 + DeepSpeed | ZeRO-Inference | $3,800 |
高性能优化方案
版本 | 技术组合 | 性能提升 |
---|---|---|
8B | FlashAttention-3 + FP8量化 | 吞吐量提升3.2倍 |
32B | 张量并行+CPU卸载 | 显存需求降低60% |
70B | 模型分片+流水线并行 | 集群利用率提升75% |
- 特殊场景实践:
- 7B移动部署:通过ONNX Runtime适配iPhone 15 Pro,实现本地化运行
- 14B金融场景:使用NVIDIA Triton+动态批处理,QPS可达1200+
粗略预算(非严谨)
DeepSeek R1-1.5B 配置(乞丐版)
- 适合低成本运行。
组件 | 型号/规格 | 价格 | 备注 |
---|---|---|---|
CPU | Intel i3-12100 | ¥800 | 4核8线程,性价比高 |
内存 | DDR4 16GB (8GB x 2) | ¥300 | 双通道,确保带宽 |
硬盘 | 512GB NVMe SSD | ¥200 | 高速存储,加载模型快 |
主板 | H610 芯片组 | ¥500 | 支持 DDR4 和 PCIe 4.0 |
电源 | 300W 80+ 白牌 | ¥100 | 稳定供电 |
机箱 | 迷你机箱 | ¥100 | 小巧便携 |
总计 | ¥2000 | 低成本配置,适合 1.5B 版本 |
DeepSeek R1-7B 配置(个人用)
适合中小规模模型推理和训练,兼顾性价比。
组件 | 型号/规格 | 价格 | 备注 |
---|---|---|---|
CPU | AMD Ryzen 5 7600 | ¥1500 | 6核12线程,性价比高 |
内存 | DDR5 32GB (16GB x 2) | ¥800 | 双通道,确保带宽 |
显卡 | NVIDIA RTX 3060 12GB | ¥2500 | 显存充足,支持 FP16 加速 |
硬盘 | 1TB NVMe SSD | ¥400 | 高速存储,加载模型快 |
主板 | B650 芯片组 | ¥1000 | 支持 DDR5 和 PCIe 4.0 |
电源 | 650W 80+ 金牌 | ¥500 | 稳定供电 |
机箱 | 中塔机箱 | ¥300 | 散热良好 |
总计 | ¥7000 | 性价比高,适合中小规模任务 |
DeepSeekR1-70B配置(公司用)
适合大规模模型推理和训练,性能强劲
组件 | 型号/规格 | 价格 | 备注 |
---|---|---|---|
CPU | AMD Ryzen 9 7950X | ¥4500 | 16核32线程,多任务性能强 |
内存 | DDR5 128GB (32GB x 4) | ¥3000 | 大容量内存,支持多任务 |
显卡 | NVIDIA RTX 4090 24GB | ¥15000 | 顶级消费级显卡,显存充足 |
硬盘 | 2TB NVMe SSD | ¥1000 | 高速存储,加载大模型快 |
主板 | X670 芯片组 | ¥2000 | 支持多 GPU 和高速存储 |
电源 | 1000W 80+ 白金 | ¥1500 | 稳定供电,支持高功耗 GPU |
机箱 | 全塔机箱 | ¥800 | 散热优秀,支持多 GPU |
总计 | ¥27800 | 高性能配置,适合大规模任务 |
DeepSeekR1-671B本配置(满血版)
适合超大规模模型训练,需多 GPU 并行计算
组件 | 型号/规格 | 价格 | 备注 |
---|---|---|---|
CPU | AMD EPYC 7742 | ¥30000 | 64核128线程,服务器级 CPU |
内存 | DDR4 512GB (64GB x 8) | ¥10000 | 超大容量内存,支持多任务 |
显卡 | NVIDIA A100 80GB x 4 | ¥400000 | 4 张 A100,显存总计 320GB |
硬盘 | 4TB NVMe SSD x 2 | ¥6000 | 高速存储,支持大模型加载 |
主板 | 服务器主板 | ¥10000 | 支持多 GPU 和高速存储 |
电源 | 2000W 80+ 钛金 | ¥5000 | 稳定供电,支持高功耗 GPU |
机箱 | 服务器机架 | ¥8000 | 支持多 GPU 和散热 |
总计 | ¥469000 | 顶级配置,适合超大规模训练 |
实际不止这个价位
总结与建议
-
不同组织的建议
- 初创团队:优先选择7B+AWQ量化方案,单卡RTX 4090即可实现商业级服务
- 科研机构:推荐32B+混合并行方案,兼顾长文本处理与计算精度
- 超算中心:671B需配备HDR InfiniBand网络,建议采用分阶段部署策略
-
通用部署建议
- 量化优化:使用 4-bit/8-bit 量化可降低显存占用 30-50%。
- 推理框架:搭配 vLLM、TensorRT 等加速库提升效率。
- 云部署:70B/671B 建议优先考虑云服务以弹性扩展资源。
- 能耗注意:32B+ 模型需高功率电源(1000W+)和散热系统。
选择合适的DeepSeek版本不仅要考虑硬件配置,还要根据实际应用场景来决定。建议先从较小的模型开始尝试,逐步升级到更大的模型。这样可以在确保性能的同时,避免资源浪费。
- 未来趋势建议:
- 关注QLoRA技术对70B+模型的微调成本优化(预计降低85%微调显存)
- 部署时预留FP8/INT4量化接口,为后续硬件升级留出空间
- 对安全敏感场景建议采用14B+可信执行环境(TEE)组合方案
K FAQ
Q: 本地部署AI大模型,必须要有显卡吗?
- 如果你只是个人使用,对AI的回答质量和速度要求都不高,可以不需要显卡
- 如果想高质量的回答和生成,则:显卡是必须的!!!
- 高端的显卡意味着更大的模型,更好的生成质量和更快的速度
Q:哪些职业的人需要部署本地AI?
- 在涉及到敏感数据和隐私保护的职业中,很多从业人员更倾向于使用本地部署的AI系统,以确保数据安全。以下是一些更适合访问本地AI的职业:
职业 | 原因 |
---|---|
医生 | 涉及大量个人健康数据,必须遵守严格的数据保护法规(如HIPAA),确保患者隐私。 |
律师 | 处理客户资料和案件文件等敏感信息,避免数据泄露或滥用 |
金融从业者 | 处理客户的财务状况、交易记录等敏感数据,防止信息泄露和诈骗。 |
政府安全部门 | 涉及国家安全、执法记录和敏感数据,防止泄露对国家或个人安全产生威胁。 |
HR | 处理员工的个人档案、薪酬、绩效评估等敏感信息,确保数据机密性。 |
心理学家 | 处理患者的心理健康和治疗记录,防止隐私泄露。 |
教育工作者 | 处理学生的成绩、家庭背景等个人数据,尤其是未成年人的隐私保护。 |
工程师 | 涉及专利技术、生产数据等敏感信息,防止技术泄露或安全问题。 |
科研人员 敏感领域 | 涉及核能、军事技术、制药等领域的研究,防止专有数据和技术泄漏。 |
本地AI系统更适合处理涉及敏感信息、商业机密、个人隐私或国家安全的职业领域。在这些领域中,本地部署能够更好地保护数据的隐私和安全。
Q:中国AI芯片厂商上市情况?
企业 | 上市进度 |
---|---|
海光信息 | 已上市 |
寒武纪 | 已上市 |
景嘉微 | 已上市 |
壁仞科技 | 上市准备中 |
天数智芯 | 上市准备中 |
摩尔线程 | 上市准备中 |
华为 | 未上市 |
燧原科技 | 未上市 |
Q:AI芯片厂商主要产品
企业 | 主要GPU产品 |
---|---|
华为 | Ascend系列(如Ascend 910B、910C(相比910B的算力直接翻了2.5倍,被视作对标英伟达H100 的有力竞争者,N+2制程技术/接近7nm制程,但量产的良率偏低)) |
海光信息 | DCU100 |
寒武纪 | MLU系列(如MLU370、MLU590) |
景嘉微 | JM系列(如JM9230) |
壁仞科技 | BR系列(如BR100、BR104) |
燧原科技 | 云燧T20/T21训练卡,云燧i20推理卡 |
天数智芯 | 天垓100 |
摩尔线程 | MTT系列(如S80、S4000) |
华为:国产AI芯片的领跑者
企业 | 主要GPU产品 | 上市进度 | 评估 |
---|---|---|---|
华为 | Ascend系列(如Ascend 910B、910C) | 未上市 | 集成AI加速能力,性能优异。自研的MindSpore AI框架,广泛应用于国内大客户,生态逐渐完善中。支持兼容"类CUDA"环境-ROCm,广泛用于高性能计算系统,AI加速有较大潜力,受益于ROCm,生态系统良好。 |
- 创始人:任正非(1987年创立)
- 核心团队:主要来自内部培养,拥有大量通信领域技术人才,如郭平、孙亚芳等。
- 当前规模:约19.5万名员工,研发人员占比超过55%。
- 市场价值:2023年销售收入达7042亿元人民币,净利润870亿元。
华为在AI芯片领域的布局早已有之,其Ascend系列芯片在性能和生态建设上都表现出色,尤其是在国内市场上,华为的AI芯片已经广泛应用于各种场景。
海光信息:专注AI计算
企业 | 主要GPU产品 | 上市进度 | 评估 |
---|---|---|---|
海光信息 | DCU100 | 已上市 | 专注于AI计算,性能优异,适用于深度学习训练和推理,但生态和软件支持还需要继续拓展。 |
创始人:沙超群(2014年创立)
核心团队:主要来自AMD技术授权背景,与中科院计算所合作。
当前规模:研发技术人员占比90.2%,员工总数约1031人。
市场价值:2022年上市后,市值一度超过1300亿元人民币,2023年营收60.12亿元,净利润12.63亿元。
海光信息在AI计算领域表现突出,其DCU100芯片在性能上具备较强竞争力,但在生态和软件支持方面仍有提升空间。
寒武纪:AI芯片第一股
企业 | 主要GPU产品 | 上市进度 | 评估 |
---|---|---|---|
寒武纪 | MLU系列(如MLU370、MLU590) | 已上市 | 主要面向图形显示和计算系统,广泛应用于军工和民用领域,性能稳定但生态相对封闭。 |
创始人:陈天石(2016年创立)
核心团队:主要来自中科院计算所,创始人陈天石及其哥哥陈云霁均为中科院背景。
当前规模:研发人员占比79.25%,员工总数约680人。
市场价值:2020年上市时市值突破1000亿元,2023年仍处于亏损状态。
寒武纪作为“AI芯片第一股”,其MLU系列芯片在市场上的表现备受关注,尤其是在军工和民用领域有着广泛的应用。
景嘉微:军用GPU的佼佼者
企业 | 主要GPU产品 | 上市进度 | 评估 |
---|---|---|---|
景嘉微 | JM系列(如JM9230) | 已上市 | 新兴GPU厂商,自研的BIRENSUPA软件平台,包括编程型、加速库、工具链和编译器,支持PyTorch、TensorFlow、百度飞桨等主流AI框架。 |
创始人:曾万辉(2006年创立)
核心团队:主要来自国防科技大学和军工领域。
当前规模:已形成完整的GPU研发和销售体系。
市场价值:2023年市值约300亿元人民币,营收和净利润稳步增长。
景嘉微在军用GPU领域有着显著优势,其JM系列芯片在性能和生态支持上都表现出色。
壁仞科技:新兴力量崛起
企业 | 主要GPU产品 | 上市进度 | 评估 |
---|---|---|---|
壁仞科技 | BR系列(如BR100、BR104) | 上市辅导 | 燧原科技自研的AI计算及编程平台-驭算(TopsRider)软件平台,支持训练和推理任务的优化。性能表现良好,生态建设逐步推进,适合特定场景需求。 |
- 创始人:张文(2019年创立)
- 核心团队:主要来自华为、AMD、英伟达等国际大厂。
- 当前规模:估值超过150亿元,已完成多轮融资。
- 市场价值:2023年完成新一轮20亿元融资,估值达150亿元。
壁仞科技作为新兴力量,其BR系列芯片在性能和生态建设上都有不错的表现,未来潜力巨大。
燧原科技:专注AI训练和推理*
企业 | 主要GPU产品 | 上市进度 | 评估 |
---|---|---|---|
燧原科技 | 云燧T20/T21训练卡,云燧i20推理卡 | 未上市 | 专注于AI训练和推理,性能表现良好,生态兼容性逐步提升。 |
- 创始人:赵立东(2018年创立)
- 核心团队:主要来自AMD、英伟达等国际大厂。
- 当前规模:已完成多轮融资,估值超过100亿元。
- 市场价值:2023年估值约100亿元。
燧原科技在AI训练和推理领域表现突出,其产品在性能和生态兼容性上都有不错的表现。
天数智芯:GPU的挑战者
企业 | 主要GPU产品 | 上市进度 | 评估 |
---|---|---|---|
天数智芯 | 天垓100 | 上市辅导 | 新兴GPU厂商,主打图形渲染和AI计算。推出的MUSA架构兼容CUDA,但生态体系的完善仍需时间。 |
- 创始人:***石京(2018年创立)
- 核心团队:主要来自华为、英特尔等国际大厂。
- 当前规模:已完成多轮融资。
- 市场价值:2023年估值约80亿元。
天数智芯在GPGPU领域表现出色,其天垓100芯片在性能和生态支持上都有不错的表现。
摩尔线程:GPU的新星
企业 | 主要GPU产品 | 上市进度 | 评估 |
---|---|---|---|
摩尔线程 | MTT系列(如S80、S4000) | 上市辅导 | 新兴GPU厂商,主打图形渲染和AI计算。推出的MUSA架构兼容CUDA,但生态体系的完善仍需时间。 |
- 创始人:张建中(2020年创立)
- 核心团队:主要来自英伟达、AMD等国际大厂。
- 当前规模:已完成多轮融资,估值超过100亿元。
- 市场价值:2023年估值约100亿元。
摩尔线程在GPU领域表现亮眼,其MTT系列芯片在性能和生态支持上都有不错的表现。
结语:中国AI芯片的未来
在中美芯片博弈的背景下,中国的AI芯片公司正在迅速崛起,逐渐在全球芯片产业中占据一席之地。尽管这些公司在技术和生态上仍面临挑战,但它们的快速发展和创新能力不容小觑。未来,随着技术的不断进步和市场的进一步拓展,中国AI芯片公司有望在全球芯片产业中发挥更大的作用。
U 前沿动态
- Windows 11 23H2系统
- CPU:Intel i9-14900K
- 主板:技嘉Aorus Z790冰雕
- 显卡:公版英伟达RTX 4080
- 固态硬盘:致态TiPro9000 1TB(PCIe5.0)
- 内存:64GB 双通道DDR5 6000 C30(16GB x4)
unsloth/DeepSeek-R1-Distill-Llama-8B-unsloth-bnb-4bit
为了使这些功能更易于访问,DeepSeek 将其 R1 输出提炼成几个较小的模型:
- 基于 Qwen 的蒸馏模型:1.5B、7B、14B 和 32B
- 基于 Llama 的蒸馏模型:8B 和 70B
注意:对于 14B 模型,正确的变体是 DeepSeek-R1-Distill-Qwen-14B。
使用具有 4 位量化的 Unsloth 加载蒸馏的 14B 模型,DeepSeek-R1-Distill-Qwen-14B
Y 推荐文献
X 参考文献
- AI大模型时代,如何挑选你的“超级引擎”?GPU选购指南 - Weixin
- 【本地部署DeepSeek必看二】AI显卡选购指南 - Weixin
- 2000元就能本地部署AI大模型?7种DeepSeek配置对比 - Weixin
- 中美芯片博弈之三:中国的AI芯片公司盘点 - Weixin
- 本地训练AI大模型显卡推荐,RTX 4060Ti 16G版是否够用 - shoushai
- 一文读懂DeepSeek-R1本地部署配置要求(建议收藏) - CSDN 【推荐】
- 私有化部署DeepSeek,你需要准备怎样的硬件配置? - Weixin
- DeepSeek-R1 版本差异、硬件需求与部署策略解析!为什么你的AI在数草莓,别人的在写代码? - Weixin
- 【喂饭教程】10分钟学会快速微调DeepSeek-R1-8b模型,并且可视化训练过程!环境配置+模型微调+模型部署+效果展示详细教程! - Bilibili 【推荐】
- 一键部署DeepSeek-V3、DeepSeek-R1模型 - Aliyun

本文链接: https://www.cnblogs.com/johnnyzen/p/18723198
关于博文:评论和私信会在第一时间回复,或直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
日常交流:大数据与软件开发-QQ交流群: 774386015 【入群二维码】参见左下角。您的支持、鼓励是博主技术写作的重要动力!
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 上周热点回顾(2.17-2.23)
· 如何使用 Uni-app 实现视频聊天(源码,支持安卓、iOS)
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
2020-02-19 [Java]【异常处理】在项目开发中的通用规范