11.18
总的来说,在预训练阶段,DeepSeek-V3 每处理 1 万亿个词元仅需 18 万小时的 H800 GPU 时间,使用配备 2048 块 H800 GPU 的集群,只需 3.7 天即可完成。整个预训练耗时不到两个月,总计使用 266.4 万 GPU 小时。此外,上下文长度扩展耗费 11.9 万 GPU 小时,后期训练(如监督微调和强化学习)耗费 5000 GPU 小时,总训练时长为 278.8 万 GPU 小时。
按每 GPU 小时 2 美元的价格计算,DeepSeek-V3 的整体训练成本约为 557.6 万美元。这一数字仅涵盖正式训练阶段的花费,不包括在模型架构、算法设计或数据处理上的前期研究和消融实验费用,但它远低于通常训练大型语言模型所需的数亿美元。例如,Llama-3.1 的训练成本估计超过 5 亿美元。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人