随笔 - 264  文章 - 3  评论 - 4251  阅读 - 311万

李飞飞的50美金比肩DeepSeek把CEO忽悠瘸了,倒霉的却是程序员

关注公众号回复1

获取一线、总监、高管《管理秘籍》

书接上文:DeepSeek怎么突然就比肩GPT了?

如前所述,应用层AI开发压根不会去刻意关注大模型底层实现,多数时候也关注不了。

但我们一定会关注的是各种技术选型最终的优劣与效果,其中关系最大的一定是模型训练成本到底是多少?

这个问题搞不清楚,后续做实现时候可能栽大跟头,想象一下你信誓旦旦的告诉CEO要去做模型训练,几百万RMB丢进去,放个屁就没了,你觉得他会不会想要打死你?

而近期因为想要抢占DeepSeek热度,很多“老演员”都在抢占注意力,这其实搞得很多技术负责人很难受:因为,老板对训练的成本预期被标题党们带偏了,比如网上流传的一篇文章:

李飞飞等斯坦福大学和华盛顿大学的研究人员以不到 50 美元的云计算费用,成功训练出了一个名为 s1 的人工智能推理模型。

如果真的有CEO相信了50美元的训练成本,然后再让技术负责人去做,那会把团队搞爆的...

AI应用的核心:成本

模型开发离不开三要素:算力、算法、数据。其中底层算法与应用层关系不大,数据与算力的需求要看实际的应用。

比如做AI律师、AI医生、AI教师这种复杂AI项目,是跳不出去的,我粗略整理了一下(复杂AI应用)成本结构,大概是这样的:

成本项目 需要程度 成本预估 项目说明
研发团队(含产品) ★★★ 不低 主要完成需求细化与具体实现,是大模型项目的核心部分。
领域专家团队(如律师、医生、老师) ★★☆ 适中 提供行业KnowHow、初始规则与数据,帮助研发团队实现高效开发。
数据成本 ★★★ 不可控 数据是AI项目的核心,通常包括领域专家提供的数据以及其他额外数据。
训练成本 ★☆☆ 不可控 训练过程中需要大量算力,尤其在未优化前,成本非常高。
推理成本 ★★★ 可控 推理服务器是必须的,推理阶段的成本较为可控,主要作为服务器费用的一部分。
合规与安全成本 ★☆☆ 适中 涉及敏感数据的合规与安全性,特别是在医疗、金融等领域,需保证隐私保护与数据安全。

就过往经验来说,人力成本虽高,但他是可控的,并且可随时动态调整,长期来说也是公司的财富。

所以,尤为不可控的就是数据成本与训练成本!

一、数据成本

大模型对数据的质量要求极高,尤其是医疗、法律等领域,获取优质数据不仅需要支付高昂费用,往往还要依赖付费数据库或第三方合作。

大模型的训练需要大量标注数据,特别是涉及领域专家时,标注费用不容小觑。

数据的清洗与预处理更是一个耗费巨大资源的过程,数据蒸馏在这块可以帮助很大,但必要的真人介入依旧难以避免。

二、训练成本

将通用模型调整到特定领域(如法律、医疗)时,需要额外的计算资源和领域数据,通常每次微调都伴随着高额开销。

为了找到最佳的超参数配置,进行大量实验和计算是必须的,这无疑会进一步提高训练的成本。

为了降低推理成本,通常需要对模型进行压缩(如剪枝、量化等),这些优化步骤虽然能提高效率,但也需要额外的研发投入。

从这个角度再看李飞飞的50美元成本,突然就有点摸不着头脑了,但他已经搞得很多人很蛋疼。

因为CEO们可不会管是不是真的,只要对他们有利,就认为是真的。但技术负责人必须搞清楚她到底怎么做到的?

打开50美元

根据论文数据来源于对Gemini Thinking Experimental 模型的蒸馏1000 个样本小型数据集。

而后使用阿里的 Qwen2.5-32B-Instruct 进行监督微调;使用 16 个英伟达 H100 GPU 进行了 26 分钟的训练,而后发布信息:媲美 DeepSeek R1、OpenAI o1 的 AI 推理模型

这就让人非常疑惑了,如果只考虑单次微调训练成本,如此小的数据量还用不了50美元,但是从前面的文章我们可以看出来两个问题:

  1. 第一,李飞飞团队在数据上投入很小,蒸馏数据也花不了几个钱,简单信息AI完全就搞定了,也不需要进一步验证;
  2. 第二,不能忽视基座模型Qwen2.5-32B-Instruct的前期投入,天知道阿里在模型调优和数据准备上花了多少钱;

但,无所谓,我们核心关注的是成本与效果,成本说不清楚就说效果,那么他真的用1000数据超过了o1吗?想多了!

从对比数据来看,s1只是在1000测试集数据的边界内表现不错,跳出这个边界可能撒也不是...

但是这就让我们很Emo了,因为老板真的让技术负责人拿着10倍溢出500美金去复现GPT。说实话,我虽然经常标题党,但他这个标题党的确实过份了...

另外回到1000个数据集这件事本身,就算有人真的基于某开源模型媲美了最顶级的模型能力,那也不能说明什么!

因为参数量大的大模型,其训练数据量也奇大无比,其结果是数据之中甚至可能会有冲突的情况,并且大数据量训练过程中还会伴随遗忘、覆盖等复杂场景,这其中的成本,绝不是小数据集训练可比拟的!

相比之下,小数据集训练通常意味着更少的复杂性和更容易控制的模型行为,但也会面临欠拟合的问题:即模型在面临新的、未见过的情境时表现得不够稳健。

因此,虽然小数据集的训练可以产生一些在特定测试集上表现优异的模型,但它并不能代表模型的通用能力或真实表现。

综上,这50美元无论从什么角度来看,都是不合理的...

但是,这里有个问题依旧没有被很好的解答现在训练一个领域模型,到底成本如何?

模型训练成本

对于AI应用来说,在效果差距不大的情况下,第一考虑一定是实现成本,而现在主流实现只有两条:

  1. 不训练模型。基于知识图谱+模型的提示词后置策略;
  2. 训练模型。基于领域模型的数据前置训练,API调用策略;

第一条路径在2024年,很多公司已经用过了,但市面上真正的AI产品爆款依旧没有出现,只能说明两个问题:

  1. 第一,可能技术路径能达到的效果有限
  2. 第二,无论产品需要的数据或者工程打磨的预期没有掌握好

我更相信是第二种:

本质上说,基于知识图谱+强大基座模型的AI应用和基于垂直领域模型+Prompt最终都是依赖与强大的行业knowHow与工程能力,不应该有太大差距

所以,如果知识图谱+GPT没做出来好的AI应用,换个路径也没那么容易

而基于知识图谱(知识库)的技术路径,至少被实践了一年,其成本已经被各个公司摸得比较清晰,其中包括初始建立知识库,后续根据数据更新再调整程序的成本。

但DeepSeek出现后,训练的成本与之前相比却产生了巨大的变化。

这里之前做垂直领域模型训练的公司可能会哭晕在厕所...

所以DeepSeek的训练成本为什么那么低,其他开源模型能不能复制他的低成本模式变得很关键了,这会进一步影响技术路径选择,甚至很多人会尝试混合路径

这里的点是:无论知识图谱还是私有领域模型,都是公司壁垒,但显然领域模型更有噱头

PS:这里有误请您指出

而我这里做了很多阅读,最终得出DeepSeek训练成本低的原因是综合的因素:

一、MTP架构

MTP(Multi-Token Prediction):多token预测技术

一种并行优化机制,可以让模型在训练时,同时预测多个连续位置的token。从而提升整体性能和推理速度。

传统的自回归模型在每次预测时都需要依赖前一步的输出,这意味着每个token的生成都依赖于前面已经生成的token。

而MTP通过并行化这一过程,减少了计算时间和资源的消耗,这对于大规模模型的训练尤其重要。

通过这种方式,DeepSeek能够更高效地使用计算资源,从而降低整体训练成本。

MTP不仅能够提升训练效率,还能够在推理阶段带来性能提升。由于模型能够同时生成多个token而不是逐步生成,因此推理速度也会大大加快。

这对于需要快速响应的实际应用场景来说,是一个重要的优势,能够显著减少延迟。

二、MoE架构

如前所述,大模型的训练依赖于海量数据,数据量过大其处理的复杂度将急剧上升,但如果是领域小模型的训练难度及成本就会好很多了。

这可能是DeepSeek使用混合专家模型(MoE)的原因。其核心思路包含三点:

  1. 专家模型,MoE架构包含很多小模型,不同模型回答不同领域的问题;
  2. “全科医生”,他包含一个能力稍强的通用模型做信息分拆、意图识别,所有信息通过“全科医生”去找到最接近的(3个)“科室医生模型”,最后通过他们的回复,再由“全科医生”对外作答;

这个架构我认为是一种工程降熵的策略,因为参数过大的模型训练起来太费劲,那就用多个小模型去抵消一个大模型,从而降低工程实现难度

三、数据蒸馏

就过往经验启示做数据蒸馏的成本是要高于服务器训练成本的。

因为数据蒸馏需要领域专家,而且数据会存在各种往复,这就会导致多轮数据处理,其成本是极高的。

但数据蒸馏(知识蒸馏)技术可以很好的规避这一切,相当于借助巨人的肩膀,使用优秀模型使用过的数据,这里的成本优化是很吓人的。

数据蒸馏减少了对大量标注数据的需求,最后结合GRPO技术,模型在学习过程中能够更好地应对噪声和不确定性,避免过拟合、加速收敛。

GRPO通过持续的反馈机制调整模型权重,确保模型在动态任务和复杂环境下保持较好的推理能力,从而进一步提升了训练效率。

四、KVcache

KVcache通过在推理过程中缓存 Key 和 Value 矩阵,避免重复计算,显著减少了自注意力机制的计算开销。

在生成每个新 token 时,模型只需计算当前 token 的 Query,并与缓存的 Key 和 Value 矩阵进行注意力计算,从而大幅提升推理速度并降低计算资源消耗。

在训练阶段,KV Cache 的作用有限,因为训练通常以批量方式进行,且需要完整的梯度计算。然而,在长序列训练中,KV Cache 仍可通过缓存部分结果提升效率。

但是 KV Cache会显著降低推理成本,为大规模应用提供了高效支持。

以上,大概是DeepSeek为什么成本低的原因,但具体到什么程度,还得等一段时间后工程应用后的真实数据。

结语

其实,国内云服务平台在DeepSeek的训练集成上速度会很快的,所以大部分知识后续会被云平台包装变成不可见的部分,这里需要持续跟进。

但,很有可能,留给我们的部分只会包含两点:

  1. 训练数据的入口;
  2. API测试效果的出口;

所以,对于AI应用的各位来说,真正有用的知识可能是如何使用好知识蒸馏技术以及深入了解下MoE架构中尤其是门控系统是如何设计的,如果能迁移至工程实现是最好的。

未来,AI应用开发将更加注重成本与效果平衡,技术路径选择更加灵活。

无论是基于知识图谱的提示词策略,还是领域模型的前置训练,开发者需根据需求和资源做出最优决策。

DeepSeek的低成本模式为行业设立了标杆,推动更多企业探索高效、经济的解决方案。随着技术进步,AI应用开发的门槛将降低,创新应用的落地速度将加快,推动AI技术在各行业的深度渗透。

因此,开发者需持续关注技术动态,并且一定要做好老板的预期管理,近期标题党太多,很容易引起老板们的AI焦虑,到时候吃亏的还是我们自己,所以,加油吧。

最后,文章有一些错漏,希望各位多指正。

posted on   叶小钗  阅读(1729)  评论(3编辑  收藏  举报
相关博文:
阅读排行:
· 一个费力不讨好的项目,让我损失了近一半的绩效!
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单!
· 实操Deepseek接入个人知识库
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8

点击右上角即可分享
微信分享提示