【深度分析】幻方的 Deepseek 模型专家交流纪要

幻方的 Deepseek 模型专家交流纪要

在科技飞速发展的当下,人工智能领域的每一次突破都备受瞩目。2025 年 2 月,幻方量化发布的 DeepSeek-V3 模型一经问世,便在国内外迅速出圈,引发了资本市场的热烈讨论,成为了几乎所有投资者圈层关注的焦点。今天,让我们深入了解关于这款模型的诸多见解,剖析其背后的技术逻辑与市场影响。

DeepSeek-V3 厉害在哪里?

  1. 性能极强:作为一个总参数量 671B 但激活参数仅 37B 的 MoE 模型,DeepSeek-V3 在主流基准分数全面超越 Llama 3.1 405B,与 Claude-Sonnet-3.5-1022 *乎打*,实测性能在 Sonnet-3.5 和 GPT-4o 之间,是当之无愧的国产最强开源模型。这一卓越的性能表现,标志着国产大模型在技术实力上的重大飞跃,为国内人工智能的发展注入了强大的信心。
  1. 成本极低:训练 DeepSeek-V3 仅需 2048 张 H800 训练 56 天(2.788M GPU hours),算力成本仅 4000 万人民币,是 Llama 3.1 训练成本的 1/11。不仅如此,其推理成本也持续超预期,输入 / 输出每百万 Tokens 仅 2 元 / 8 元,仅为 Sonnet-3.5 的 1/10,这里甚至还没有考虑开启 Context Caching 这一外挂功能。如此低的成本,为大模型的广泛应用和普及提供了有力的支持,降低了企业和开发者的使用门槛。
  1. 引领创新:DeepSeek 打破了对国产模型团队的刻板印象。他们在 V2 提出的多头隐式注意力(MLA)就已得到了业内的高度赞许,今年初提出的 DeepSeekMoE 架构也备受关注。本次 V3 更是首次验证了大规模 FP8 混合精度训练的可行性,并创新性地应用了无辅助损失的负载均衡策略、多令牌预测(MTP)的训练目标等等。这些创新成果,展示了幻方量化在大模型研发领域的深厚技术积累和强大创新能力,为国产大模型的发展树立了新的标杆。

为什么训练 / 推理成本这么低?

  1. V3 主要涉及的降本技术方案
    • MLA 机制:降低 KV Cache 大小,有效减少了模型运行过程中的缓存占用,提高了计算效率。
    • DeepSeekMoE 架构:降低 Flops / 参数开销,通过优化模型结构,减少了不必要的计算量,从而降低了成本。
    • FP8 混合精度训练:降低 Flops 和显存占用,在保证模型性能的前提下,显著减少了计算资源的消耗。
    • 蒸馏 DeepSeek-R1 推理能力:降低后训练 RL 成本,通过对已有模型推理能力的蒸馏,提高了训练效率,降低了成本。

专家观点碰撞

  1. A 观点:幻方这消息存在断章取义的情况。训练一个 671B 的 moe 模型,且用了 fp8 的架构来降低 gpu 耗时数,幻方在技术上确实厉害。但在训这个模型之前,他们用自己的 r1 模型(对标 openai o1 模型)来生成数据,这部分的反复尝试成本未被计算在内。而且,训练上的降本增效并不代表推理需求会下降,只要应用端有增长逻辑,推理需求依然值得期待。
  1. B 观点:训练只有一次,而推理是无数次,推理需求实质上远大于训练需求,尤其是在用户基数大的情况下。Deepseek 是站在巨人的肩膀上,使用大量高质量合成数据。其统计口径只计算了训练,而数据的配比需要做大量的预实验,合成数据的生成和清洗也需要消耗算力。此外,Deepseek 的模型的 MoE 每个专家都可以单独拿出来训练,相比于 dense 架构本身就是省力一些的方案。而且,尽管宣传成绩出色,但消费者和企业界实际使用最多的还是 GPT 4o 和 llama 3,这些宣传成绩未必可靠。
  1. C 观点:FP8 的训练本身就不怎么耗资源,而且 DS 这个是 “设定” 好的大模型训练,限定了大模型的能力,减小了很多不必要的消耗。OpenAI 和 Antropic 等在训练新东西、新能力时,走弯路的消耗量可能百倍千倍于最后那个正确路径。模型能力追求的是 “通识能力”,就像为了考个好成绩,该读的 3 年书谁也躲不过,现在算力和数据无非就是想缩短这个时间。大模型通识能力上限太高了,卷算力才刚开始,谁犹豫、质疑谁就会掉队。另外,多模态和具身智能的接口也是未来的发展方向,GPT-5 难产的一个重要原因就是它要有开放机器人模态的潜在能力,能处理物理世界数据,这超越了现在大模型的能力。
  1. Deepseek 官方观点
    • 训练时间减少的原因:算法优化方面,采用了更高效的算法,如改进的优化器(如 AdamW)和学习率调度策略,加速了模型的收敛速度;数据预处理改进方面,通过更智能的数据采样和增强技术,减少了训练数据的冗余,提高了训练效率;分布式训练方面,使用了更先进的分布式训练框架,能够更好地利用多 GPU 或多节点的计算资源,从而缩短训练时间。
    • 算力需求降低的原因:模型架构优化方面,对模型架构进行了精简,通过剪枝、量化和知识蒸馏等技术,减少了模型的参数量和计算复杂度;硬件适配方面,针对现代硬件(如 GPU 和 TPU)进行了优化,充分利用了硬件的并行计算能力,从而降低了算力需求;混合精度训练方面,采用了混合精度训练(Mixed Precision Training),在保持模型性能的同时,显著减少了内存占用和计算量。
    • 是否意味着 AI 训练对算力的要求普遍降低:并非如此,DeepSeek 的优化是针对 DeepSeek-V3 的特定设计和任务进行的,这些改进可能并不直接适用于其他模型或任务。例如,训练大规模多模态模型(如 GPT-4 或 Gemini)仍然需要巨大的算力。虽然单个模型的效率在提升,但 AI 领域的整体趋势是模型规模和复杂性不断增加,这对算力的需求仍然很高。例如,训练一个万亿参数级别的模型可能需要数千张 GPU 和数月的计算时间。
    • 效率提升的潜在权衡:在减少训练时间和算力需求的同时,确保模型的性能(如准确率、泛化能力)不受显著影响。然而,在某些情况下,效率提升可能会带来一定的性能损失,这需要在设计和优化中进行权衡。并且,DeepSeek 的优化主要针对特定任务(如文本生成和对话),对于其他任务(如图像生成或语音识别),可能需要不同的优化策略。

市场影响与展望

DeepSeek-V3 的发布,不仅在技术层面带来了诸多突破,也在市场上引发了一系列的连锁反应。从投资角度来看,相关概念股受到了市场的高度关注。例如,每日互动作为幻方量化的二股东,其联合创始人也是幻方量化的技术负责人,为 DeepSeek 提供海量用户行为语料数据等,*期关注度较高。华金资本作为珠海国资旗下投资*台,曾经通过华金领越基金间接参与 DeepSeekPre-A 轮融资;浙江东方曾经通过旗下杭州东方嘉富基金参投 DeepSeek 天使轮融资,这些公司都因为与幻方量化的关联而受到市场的关注。

展望未来,DeepSeek 的发展前景值得期待。它的成功不仅为中国科技界带来了新的气象,也为全球 AI 产业的格局带来了深刻影响。这证明了在科技领域,中国不仅能够追赶上西方先进技术,甚至在某些方面实现了超越。中国的科技创新已迎来了前所未有的机遇与挑战,亟需更多如 DeepSeek 团队般敢于探索、勇于创新的人才,共同推动国家的科技进步与繁荣。同时,随着技术的不断发展,DeepSeek 也将面临更多的挑战和机遇,如何进一步提升模型性能、拓展应用场景、降低成本,将是其未来发展的关键。让我们拭目以待,看 DeepSeek 如何在人工智能的舞台上继续闪耀。


幻方:AI浪潮中的“隐形巨头”与大模型探索之路

在当前大模型竞争激烈的浪潮中,幻方显得格外独特。当众多创业公司在大厂纷纷入局后开始调整方向甚至萌生退意时,这家量化基金却毅然决然地孤绝前行。2023年5月,幻方成立了独立新组织“深度求索”,专注于探索真正人类级别的人工智能,目标不仅是复刻ChatGPT,更是要揭秘通用人工智能(AGI)的更多未知之谜。

从算力角度来看,幻方早已具备了强大的基础。2019年,幻方量化成立AI公司,其自研的深度学习训练*台“萤火一号”总投资*2亿元,搭载了1100块GPU;两年后,“萤火二号”的投入增加到10亿元,搭载了约1万张英伟达A100显卡。据《财经十一人》报道,国内拥有超过1万枚GPU的企业不超过5家,而幻方便是其中之一。通常认为,1万枚英伟达A100芯片是做自训大模型的算力门槛,这意味着幻方比很多大厂更早拿到了做ChatGPT的入场券。

然而,大模型的研发不仅依赖算力,还需要强大的算法和海量的数据支持。起步阶段就需要5000万美金,训练一次需要上千万美金,这对于非百亿美金公司来说很难持续跟进。但幻方创始人梁文锋却很乐观,他认为关键在于幻方“想做这件事,能做这件事”,所以他们就是最合适的人选之一。

这种乐观源于幻方独特的发展路径。量化投资源自美国,大多数中国头部量化基金的创始班底都有过美国或欧洲对冲基金的履历,但幻方却是一个完全由本土班底起家的例外,独自摸索着成长。2021年,成立仅六年的幻方抵达千亿规模,被称为“量化四大天王”之一。它始终像一个搅局者,以一种崭新的方式切入到行业中,无论是研发体系、产品还是销售,都与众不同。一位头部量化基金创始人认为,幻方“没有按照某种约定成俗的道路走”,而是“按照他们想要的方式”,即便有些离经叛道或存在争议,也敢于大大方方地表达并付诸实践。

幻方的成长奥秘,内部将其归结为“选用了一批没有经验但有潜能的人,以及有一个可以让创新发生的组织架构和企业文化”,他们认为这也将是大模型创业公司与大厂竞争的秘密所在。而更关键的秘密或许来自创始人梁文锋。在浙江大学攻读人工智能时,梁文锋就坚信“人工智能一定会改变世界”,尽管在2008年这还只是一个不被认同的执念。毕业后,他没有像周围人一样去大厂做程序员,而是选择在成都的廉价出租屋里不断尝试,最终切入了金融领域,并成立了幻方。

幻方在发布做大模型公告时,引用了法国新浪潮导演特吕弗曾告诫青年导演的一句话:“务必要疯狂地怀抱雄心,且还要疯狂地真诚。”这种“疯狂”的精神也体现在他们的大模型探索之路上。

做研究,做探索

“我们做大模型,其实跟量化和金融都没有直接关系。”梁文锋表示,幻方独建了名为“深度求索”的新公司来开展大模型项目,其主要班底中很多人原本就是做人工智能的。他们此前尝试过多个场景,最终选择了金融领域,而通用人工智能(AGI)可能是下一个最难攻克的领域,所以对于幻方来说,做这件事是一个“怎么做”的问题,而非“为什么做”的问题。

幻方的目标是通用人工智能,语言大模型是通往AGI的必经之路,并且已经初步具备了AGI的特征,因此他们将从语言大模型开始,后续还会涉及视觉等领域。与其他创业公司不同,幻方不会过早设计基于模型的应用,而是专注于大模型本身。梁文锋认为,尽管大厂已经入局,但无论大厂还是创业公司,都很难在短时间内建立起碾压对手的技术优势。因为有OpenAI指路,大家都是基于公开论文和代码进行研发,最晚到明年,大厂和创业公司都会有自己的大语言模型。大厂和创业公司都有机会,现有垂类场景并不掌握在初创公司手上,这个阶段对初创公司不太友好,但这种场景本质上是分散的、碎片化的小需求,更适合灵活的创业型组织。从长期来看,大模型应用门槛会越来越低,初创公司在未来20年任何时候下场,都有机会。幻方的目标很明确,就是不做垂类和应用,而是专注于做研究、做探索。

这种探索是出于一种好奇心驱动。从长远来看,幻方想去验证一些猜想,例如他们认为人类智能的本质可能就是语言,人的思维可能是一个语言的过程。这意味着在语言大模型上可能诞生出类人的人工智能(AGI)。从*处来看,GPT-4还有很多待解之谜,幻方在复刻的同时也会进行研究揭秘。

但研究意味着要付出更大的成本。如果只是做复刻,可以在公开论文或开源代码的基础上,只需训练很少次数,甚至只需进行微调,成本很低。而做研究则需要进行各种实验和对比,需要更多的算力,对人员的要求也更高,因此成本更高。幻方作为出资人之一,有充足的研发预算,另外每年还有几个亿的捐款预算,之前这些预算主要用于公益机构,如果需要,也可以进行调整。

不过,做基础层大模型需要巨大的投入,没有两三亿美元,甚至连参与的机会都没有。幻方也在寻找不同的出资方进行谈判。接触下来,他们发现很多风险投资(VC)对做研究有顾虑,因为VC有退出需求,希望尽快做出产品并实现商业化,而按照幻方优先做研究的思路,很难从VC那里获得融资。但幻方已经有算力和一个工程师团队,相当于拥有了部分筹码。

对于商业模式,幻方目前的设想是将训练结果的大部分公开共享,这样可以与商业化结合。他们希望更多人,哪怕是一个小app,也能够低成本地使用大模型,而不是让技术只掌握在少数人和公司手中,形成垄断。与大厂相比,幻方的优势在于其模型是完全自由的,不会与大厂的*台或生态捆绑。

无论如何,一个商业公司去做这种无限投入的研究性探索,确实有些疯狂。但从商业角度来看,基础研究的投入回报比是很低的。OpenAI早期的投资者在投资时,想的一定不是要获得多少回报,而是真的想做这件事。幻方现在比较确定的是,既然他们想做这件事,又有这个能力,在这个时间点上,他们就是最合适的人选之一。

万卡储备与它的代价

GPU是这次ChatGPT创业潮的稀缺品,但幻方在2021年就已经储备了1万枚。梁文锋表示,这个过程是逐步发生的,从最早的1张卡,到2015年的100张卡、2019年的1000张卡,再到1万张。很多人会以为这里边有一个不为人知的商业逻辑,但其实,主要是好奇心驱动。这种好奇心是对AI能力边界的好奇。对于行内人来说,2012年AlexNet带来的冲击已经引领了一个新的时代。AlexNet的错误率远低于当时其他模型,复苏了沉睡几十年的神经网络研究。虽然具体技术方向一直在变,但模型、数据和算力这三者的组合是不变的,特别是当2020年OpenAI发布GPT-3后,方向已经非常明确,需要大量算力。但即便在2021年幻方投入建设“萤火二号”时,大部分人还是无法理解。

对研究员来说,对算力的渴求是永无止境的。做了小规模实验后,总想做更大规模的实验。因此,幻方也会有意识地去部署尽可能多的算力。很多人以为搭建计算机集群是为了量化私募业务中机器学习做价格预测,但梁文锋表示,如果单纯只做量化投资,很少的卡也能达到目的。他们在投资之外做了大量研究,更想搞清楚什么样的范式可以完整地描述整个金融市场,有没有更简洁的表达方式,不同范式的能力边界在哪里,这些范式是否具有更广泛的适用性等。

这个过程虽然“烧钱”,但梁文锋认为,一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。显卡通常会以20%的速度折损,但梁文锋表示,他们没有精确计算过,应该没有这么多。英伟达的显卡是硬通货,即使是很多年前的老卡,也还有很多人在用。他们之前退役的老卡,二手处理时还挺值钱的,没有亏太多。

搭建计算机集群的维护费用、人工成本,甚至电费也都是不菲的支出。但梁文锋表示,电费和维护费用其实很低,这些支出每年只占硬件造价的1%左右。人工成本不低,但人工成本也是对未来的投资,是公司最大的资产。

posted @   爱上编程技术  阅读(43)  评论(0编辑  收藏  举报  
相关博文:
阅读排行:
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)
点击右上角即可分享
微信分享提示