2025-03-01 21:53阅读: 43评论: 0推荐: 0

大胆点!你猜DeepSeek的利润率有多高?

这种一周真是热闹啊,DeepSeek开源周,连续五天(2025年2月24日至28日)开源了5个核心技术项目,覆盖AI模型训练、推理优化、文件系统等多个领域,在今天还放出来了One more thing,直接把自己的利润率放出来了(真不拿用户当外人,哈哈

接下来让我们一起来看看开源周都带来了哪些内容,并会对AI行业产生什么样的影响。


开源内容详解

  1. 第一天:FlashMLA(2月24日)
    • 功能:专为英伟达Hopper GPU优化的高效MLA(多头潜在注意力)解码内核,动态分配算力资源以处理不同长度的序列(如长/短文本),避免算力浪费。
    • 亮点:在H800 GPU上可达580 TFLOPS峰值性能,内存带宽达3000GB/s,显著提升翻译、生成等任务的效率。

Day 1

  1. 第二天:DeepEP(2月25日)
    • 功能:首个面向MoE(混合专家模型)训练和推理的开源EP(专家并行)通信库,优化专家模型间的数据传输,支持FP8低精度计算。
    • 亮点:减少通信延迟和资源消耗,提升MoE模型整体运行效率,支持NVLink和RDMA网络。

Day 2

  1. 第三天:DeepGEMM(2月26日)
    • 功能:FP8精度的通用矩阵乘法加速库,针对大模型核心计算环节优化,代码仅300行,支持普通和MoE分组的矩阵运算。
    • 亮点:在Hopper GPU上实现1350+ FP8 TFLOPS性能,安装无需编译,直接通过CUDA运行。

Day 3

  1. 第四天:并行优化策略(DualPipe & EPLB,2月27日)
    • DualPipe:双向管道并行算法,减少计算与通信阶段的等待时间,硬件利用率提升超30%。
    • EPLB:专家并行负载均衡器,通过冗余专家策略优化GPU负载分配,减少闲置。

Day 4

  1. 第五天:3FS文件系统 & Smallpond(2月28日)
    • 3FS:基于SSD和RDMA的并行文件系统,数据读取吞吐量达6.6TB/s,加速海量数据训练和推理。
    • Smallpond:轻量化数据处理框架,简化PB级数据管理。

Day 5

  1. 第六天:One More Thing: DeepSeek-V3/R1 推理系统概述(3月1日)

在DeepSeek-V3/R1 推理系统概述里,主要介绍了其高性能推理系统的设计与优化策略。该系统通过以下技术提升效率:

  1. 跨节点专家并行(EP)驱动的批量扩展,动态调整计算规模;
  2. 计算与通信重叠,减少延迟;
  3. 负载均衡算法,优化GPU资源分配,避免节点过载或闲置。

实际运行中,每个英伟达H800节点每秒可处理73.7k输入token和14.8k输出token,理论成本利润率高达545%(受低价策略和夜间折扣影响,实际收入较低)。该系统支撑了DeepSeek-V3/R1模型的高效推理,进一步推动了大模型在低成本、高吞吐场景的落地。

Day 6


总结

DeepSeek能够将底层技术开源,甚至连自己的利润率都给展示给用户看,充分展示了自己的技术实力和自信心(是不是又更高级的模型了?)。这不仅仅是DeepSeek的胜利,更是国内AI行业的胜利。站在DeepSeek的肩膀上,也必然会有越来越多高性能、低费用的大模型被训练出来,为我们的AI普及做出贡献。

参考资料

  1. https://github.com/deepseek-ai/open-infra-index
  2. https://zhuanlan.zhihu.com/p/27181462601

本文作者:拓荒者IT

本文链接:https://www.cnblogs.com/youring2/p/18745484

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   拓荒者IT  阅读(43)  评论(0编辑  收藏  举报
历史上的今天:
2013-03-01 json2.js使用参考
2013-03-01 jquery easyui datagrid使用参考
皮肤配置 参考地址:https://www.yuque.com/awescnb/user
点击右上角即可分享
微信分享提示
💬
评论
📌
收藏
💗
关注
👍
推荐
🚀
回顶
收起