李飞飞的50美金比肩DeepSeek把CEO忽悠瘸了,倒霉的却是程序员
关注公众号回复1
获取一线、总监、高管《管理秘籍》
书接上文:DeepSeek怎么突然就比肩GPT了?
如前所述,应用层AI开发压根不会去刻意关注大模型底层实现,多数时候也关注不了。
但我们一定会关注的是各种技术选型最终的优劣与效果,其中关系最大的一定是模型训练成本到底是多少?
这个问题搞不清楚,后续做实现时候可能栽大跟头,想象一下你信誓旦旦的告诉CEO要去做模型训练,几百万RMB丢进去,放个屁就没了,你觉得他会不会想要打死你?
而近期因为想要抢占DeepSeek热度,很多“老演员”都在抢占注意力,这其实搞得很多技术负责人很难受:因为,老板对训练的成本预期被标题党们带偏了,比如网上流传的一篇文章:
李飞飞等斯坦福大学和华盛顿大学的研究人员以不到 50 美元的云计算费用,成功训练出了一个名为 s1 的人工智能推理模型。
如果真的有CEO相信了50美元的训练成本,然后再让技术负责人去做,那会把团队搞爆的...
AI应用的核心:成本
模型开发离不开三要素:算力、算法、数据。其中底层算法与应用层关系不大,数据与算力的需求要看实际的应用。
比如做AI律师、AI医生、AI教师这种复杂AI项目,是跳不出去的,我粗略整理了一下(复杂AI应用)成本结构,大概是这样的:
成本项目 | 需要程度 | 成本预估 | 项目说明 |
---|---|---|---|
研发团队(含产品) | ★★★ | 不低 | 主要完成需求细化与具体实现,是大模型项目的核心部分。 |
领域专家团队(如律师、医生、老师) | ★★☆ | 适中 | 提供行业KnowHow、初始规则与数据,帮助研发团队实现高效开发。 |
数据成本 | ★★★ | 不可控 | 数据是AI项目的核心,通常包括领域专家提供的数据以及其他额外数据。 |
训练成本 | ★☆☆ | 不可控 | 训练过程中需要大量算力,尤其在未优化前,成本非常高。 |
推理成本 | ★★★ | 可控 | 推理服务器是必须的,推理阶段的成本较为可控,主要作为服务器费用的一部分。 |
合规与安全成本 | ★☆☆ | 适中 | 涉及敏感数据的合规与安全性,特别是在医疗、金融等领域,需保证隐私保护与数据安全。 |
就过往经验来说,人力成本虽高,但他是可控的,并且可随时动态调整,长期来说也是公司的财富。
所以,尤为不可控的就是数据成本与训练成本!
一、数据成本
大模型对数据的质量要求极高,尤其是医疗、法律等领域,获取优质数据不仅需要支付高昂费用,往往还要依赖付费数据库或第三方合作。
大模型的训练需要大量标注数据,特别是涉及领域专家时,标注费用不容小觑。
数据的清洗与预处理更是一个耗费巨大资源的过程,数据蒸馏在这块可以帮助很大,但必要的真人介入依旧难以避免。
二、训练成本
将通用模型调整到特定领域(如法律、医疗)时,需要额外的计算资源和领域数据,通常每次微调都伴随着高额开销。
为了找到最佳的超参数配置,进行大量实验和计算是必须的,这无疑会进一步提高训练的成本。
为了降低推理成本,通常需要对模型进行压缩(如剪枝、量化等),这些优化步骤虽然能提高效率,但也需要额外的研发投入。
从这个角度再看李飞飞的50美元成本,突然就有点摸不着头脑了,但他已经搞得很多人很蛋疼。
因为CEO们可不会管是不是真的,只要对他们有利,就认为是真的。但技术负责人必须搞清楚她到底怎么做到的?
打开50美元
根据论文数据来源于对Gemini Thinking Experimental 模型的蒸馏1000 个样本小型数据集。
而后使用阿里的 Qwen2.5-32B-Instruct 进行监督微调;使用 16 个英伟达 H100 GPU 进行了 26 分钟的训练,而后发布信息:媲美 DeepSeek R1、OpenAI o1 的 AI 推理模型。
这就让人非常疑惑了,如果只考虑单次微调训练成本,如此小的数据量还用不了50美元,但是从前面的文章我们可以看出来两个问题:
- 第一,李飞飞团队在数据上投入很小,蒸馏数据也花不了几个钱,简单信息AI完全就搞定了,也不需要进一步验证;
- 第二,不能忽视基座模型Qwen2.5-32B-Instruct的前期投入,天知道阿里在模型调优和数据准备上花了多少钱;
但,无所谓,我们核心关注的是成本与效果,成本说不清楚就说效果,那么他真的用1000数据超过了o1吗?想多了!
从对比数据来看,s1只是在1000测试集数据的边界内表现不错,跳出这个边界可能撒也不是...
但是这就让我们很Emo了,因为老板真的让技术负责人拿着10倍溢出500美金去复现GPT。说实话,我虽然经常标题党,但他这个标题党的确实过份了...
另外回到1000个数据集这件事本身,就算有人真的基于某开源模型媲美了最顶级的模型能力,那也不能说明什么!
因为参数量大的大模型,其训练数据量也奇大无比,其结果是数据之中甚至可能会有冲突的情况,并且大数据量训练过程中还会伴随遗忘、覆盖等复杂场景,这其中的成本,绝不是小数据集训练可比拟的!
相比之下,小数据集训练通常意味着更少的复杂性和更容易控制的模型行为,但也会面临欠拟合的问题:即模型在面临新的、未见过的情境时表现得不够稳健。
因此,虽然小数据集的训练可以产生一些在特定测试集上表现优异的模型,但它并不能代表模型的通用能力或真实表现。
综上,这50美元无论从什么角度来看,都是不合理的...
但是,这里有个问题依旧没有被很好的解答现在训练一个领域模型,到底成本如何?
模型训练成本
对于AI应用来说,在效果差距不大的情况下,第一考虑一定是实现成本,而现在主流实现只有两条:
- 不训练模型。基于知识图谱+模型的提示词后置策略;
- 训练模型。基于领域模型的数据前置训练,API调用策略;
第一条路径在2024年,很多公司已经用过了,但市面上真正的AI产品爆款依旧没有出现,只能说明两个问题:
- 第一,可能技术路径能达到的效果有限;
- 第二,无论产品需要的数据或者工程打磨的预期没有掌握好;
我更相信是第二种:
本质上说,基于知识图谱+强大基座模型的AI应用和基于垂直领域模型+Prompt最终都是依赖与强大的行业knowHow与工程能力,不应该有太大差距
所以,如果知识图谱+GPT没做出来好的AI应用,换个路径也没那么容易
而基于知识图谱(知识库)的技术路径,至少被实践了一年,其成本已经被各个公司摸得比较清晰,其中包括初始建立知识库,后续根据数据更新再调整程序的成本。
但DeepSeek出现后,训练的成本与之前相比却产生了巨大的变化。
这里之前做垂直领域模型训练的公司可能会哭晕在厕所...
所以DeepSeek的训练成本为什么那么低,其他开源模型能不能复制他的低成本模式变得很关键了,这会进一步影响技术路径选择,甚至很多人会尝试混合路径。
这里的点是:无论知识图谱还是私有领域模型,都是公司壁垒,但显然领域模型更有噱头
PS:这里有误请您指出
而我这里做了很多阅读,最终得出DeepSeek训练成本低的原因是综合的因素:
一、MTP架构
MTP(Multi-Token Prediction):多token预测技术。
一种并行优化机制,可以让模型在训练时,同时预测多个连续位置的token。从而提升整体性能和推理速度。
传统的自回归模型在每次预测时都需要依赖前一步的输出,这意味着每个token的生成都依赖于前面已经生成的token。
而MTP通过并行化这一过程,减少了计算时间和资源的消耗,这对于大规模模型的训练尤其重要。
通过这种方式,DeepSeek能够更高效地使用计算资源,从而降低整体训练成本。
MTP不仅能够提升训练效率,还能够在推理阶段带来性能提升。由于模型能够同时生成多个token而不是逐步生成,因此推理速度也会大大加快。
这对于需要快速响应的实际应用场景来说,是一个重要的优势,能够显著减少延迟。
二、MoE架构
如前所述,大模型的训练依赖于海量数据,数据量过大其处理的复杂度将急剧上升,但如果是领域小模型的训练难度及成本就会好很多了。
这可能是DeepSeek使用混合专家模型(MoE)的原因。其核心思路包含三点:
- 专家模型,MoE架构包含很多小模型,不同模型回答不同领域的问题;
- “全科医生”,他包含一个能力稍强的通用模型做信息分拆、意图识别,所有信息通过“全科医生”去找到最接近的(3个)“科室医生模型”,最后通过他们的回复,再由“全科医生”对外作答;
这个架构我认为是一种工程降熵的策略,因为参数过大的模型训练起来太费劲,那就用多个小模型去抵消一个大模型,从而降低工程实现难度。
三、数据蒸馏
就过往经验启示做数据蒸馏的成本是要高于服务器训练成本的。
因为数据蒸馏需要领域专家,而且数据会存在各种往复,这就会导致多轮数据处理,其成本是极高的。
但数据蒸馏(知识蒸馏)技术可以很好的规避这一切,相当于借助巨人的肩膀,使用优秀模型使用过的数据,这里的成本优化是很吓人的。
数据蒸馏减少了对大量标注数据的需求,最后结合GRPO技术,模型在学习过程中能够更好地应对噪声和不确定性,避免过拟合、加速收敛。
GRPO通过持续的反馈机制调整模型权重,确保模型在动态任务和复杂环境下保持较好的推理能力,从而进一步提升了训练效率。
四、KVcache
KVcache通过在推理过程中缓存 Key 和 Value 矩阵,避免重复计算,显著减少了自注意力机制的计算开销。
在生成每个新 token 时,模型只需计算当前 token 的 Query,并与缓存的 Key 和 Value 矩阵进行注意力计算,从而大幅提升推理速度并降低计算资源消耗。
在训练阶段,KV Cache 的作用有限,因为训练通常以批量方式进行,且需要完整的梯度计算。然而,在长序列训练中,KV Cache 仍可通过缓存部分结果提升效率。
但是 KV Cache会显著降低推理成本,为大规模应用提供了高效支持。
以上,大概是DeepSeek为什么成本低的原因,但具体到什么程度,还得等一段时间后工程应用后的真实数据。
结语
其实,国内云服务平台在DeepSeek的训练集成上速度会很快的,所以大部分知识后续会被云平台包装变成不可见的部分,这里需要持续跟进。
但,很有可能,留给我们的部分只会包含两点:
- 训练数据的入口;
- API测试效果的出口;
所以,对于AI应用的各位来说,真正有用的知识可能是如何使用好知识蒸馏技术以及深入了解下MoE架构中尤其是门控系统是如何设计的,如果能迁移至工程实现是最好的。
未来,AI应用开发将更加注重成本与效果平衡,技术路径选择更加灵活。
无论是基于知识图谱的提示词策略,还是领域模型的前置训练,开发者需根据需求和资源做出最优决策。
DeepSeek的低成本模式为行业设立了标杆,推动更多企业探索高效、经济的解决方案。随着技术进步,AI应用开发的门槛将降低,创新应用的落地速度将加快,推动AI技术在各行业的深度渗透。
因此,开发者需持续关注技术动态,并且一定要做好老板的预期管理,近期标题党太多,很容易引起老板们的AI焦虑,到时候吃亏的还是我们自己,所以,加油吧。
最后,文章有一些错漏,希望各位多指正。

【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 一个费力不讨好的项目,让我损失了近一半的绩效!
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单!
· 实操Deepseek接入个人知识库
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库