01 2025 档案

摘要:没错,这一切确实要来了。未来几年,我们将见证一场翻天覆地的变革。这不仅仅是一个历史性的时刻,放眼整个银河系,这都是一个重大转折点。 让人哭笑不得的是,对于这场即将到来的巨变,我们却缺乏深入的讨论。AI 实验室讳莫如深,新闻媒体对此浅尝辄止,政府更是一头雾水。 更讽刺的是,人类文明发展的重大议题,居然 阅读全文
posted @ 2025-01-01 22:35 SDGVSBGDRH 阅读(5) 评论(0) 推荐(0) 编辑
摘要:“像前端工程师这样的岗位可能在三年内就会消失。这听起来很极端?其实不然——三十年前本来也没有前端工程师这个职位。” 这个惊人预测出自 Exa CEO 威廉·布里克(William Bryk)之口。前段时间,这家由他与华人天才极客 Jeff Wang 在哈佛创立的 AI 搜索引擎公司 Exa,刚刚拿下 阅读全文
posted @ 2025-01-01 22:34 SDGVSBGDRH 阅读(11) 评论(0) 推荐(0) 编辑
摘要:目前,DeepSeek-V3的代码已通过 MIT 许可证在 GitHub(https://github.com/deepseek-ai/DeepSeek-V3)上公开,模型则以公司自有的许可协议提供。同时,也可以在 Hugging Face 平台(https://huggingface.co/dee 阅读全文
posted @ 2025-01-01 22:33 SDGVSBGDRH 阅读(18) 评论(0) 推荐(0) 编辑
摘要:在 2019 年,当大多数人仍专注于传统云业务时,我认为这些观点相对新颖,并需要花些力气才能说服市场中的许多玩家。 然而,DeepSeek 团队友好地告诉我,他们多年来一直在按这种方式运作。事实上,他们还希望我能帮助他们向大学研究实验室捐赠计算资源,让这些已有的算力能够被更好地利用,无需附加条件,也 阅读全文
posted @ 2025-01-01 22:33 SDGVSBGDRH 阅读(6) 评论(0) 推荐(0) 编辑
摘要:事实上,DeepSeek 的成功并非偶然。这家由中国知名量化私募巨头幻方量化于 2023 年创立的公司,在成立仅半年后就推出了第一代大模型 DeepSeek Coder,这一模型不仅免费商用,还完全开源。 不过,在当时的百模大战中,DeepSeek 发布的新模型或许并未引起太多关注。然而,令人意想不 阅读全文
posted @ 2025-01-01 22:33 SDGVSBGDRH 阅读(15) 评论(0) 推荐(0) 编辑
摘要:令技术圈为之振奋的 DeepSeek-V3 这让很多人感到惊喜。时下 DeepSeek-V3 已在国内外各大科技板块刷屏,同时引发了不少 AI 大佬的关注。 OpenAI 前研究科学家、特斯拉前人工智能主管、AI 大神 Andrej Karpathy 评价道: “DeepSeek(中国一家AI公司) 阅读全文
posted @ 2025-01-01 22:32 SDGVSBGDRH 阅读(3) 评论(0) 推荐(0) 编辑
摘要:“AI 界拼多多” 毋庸置疑,DeepSeek-V3 的发布再次证明,开源模型正迅速缩小与封闭模型之间的差距,在多项任务上实现了几乎相当的性能。这对行业发展未尝不是一件好事,不仅降低了某个 AI 巨头垄断市场的可能性,还为企业提供了更多选择和灵活性。 在定价方面,回顾今年 5 月,DeepSeek 阅读全文
posted @ 2025-01-01 22:32 SDGVSBGDRH 阅读(13) 评论(0) 推荐(0) 编辑
摘要:(1) 在数学相关基准测试中,DeepSeek-V3 在所有非长链式思维(non-long-CoT)的开源和封闭模型中表现最为出色。在特定基准如 MATH-500 中,它甚至超过了 OpenAI o1-preview。 (2) 在编程相关任务中,DeepSeek-V3 在编程竞赛基准(如LiveCo 阅读全文
posted @ 2025-01-01 22:31 SDGVSBGDRH 阅读(18) 评论(0) 推荐(0) 编辑
摘要:DeepSeek 对 DeepSeek-V3 模型进行了多项性能测试。在知识领域,基于教育类基准测试(如 MMLU、MMLU-Pro 和 GPQA)中,DeepSeek-V3 表现优异,分别取得了 88.5、75.9 和 59.1 的高分,超越了所有其他开源模型,并在性能上接近封闭模型如 GPT-4 阅读全文
posted @ 2025-01-01 22:31 SDGVSBGDRH 阅读(13) 评论(0) 推荐(0) 编辑
摘要:总的来说,在预训练阶段,DeepSeek-V3 每处理 1 万亿个词元仅需 18 万小时的 H800 GPU 时间,使用配备 2048 块 H800 GPU 的集群,只需 3.7 天即可完成。整个预训练耗时不到两个月,总计使用 266.4 万 GPU 小时。此外,上下文长度扩展耗费 11.9 万 G 阅读全文
posted @ 2025-01-01 22:31 SDGVSBGDRH 阅读(27) 评论(0) 推荐(0) 编辑
摘要:“在预训练阶段,我们使用了 14.8 万亿高质量、多样化的文本对 DeepSeek-V3 进行了训练……随后,分两阶段对其上下文长度进行了扩展。”DeepSeek 在技术论文中提到,“第一阶段将上下文长度扩展到 32K,第二阶段进一步扩展到 128K。在此基础上,我们对 DeepSeek-V3 进行 阅读全文
posted @ 2025-01-01 22:30 SDGVSBGDRH 阅读(15) 评论(0) 推荐(0) 编辑
摘要:就在今天,素来被硅谷视为“来自东方神秘力量”的中国大模型创业公司 DeepSeek 再次悄悄惊艳了国内外的 AI 技术圈,其重磅发布了一个全新的超大规模模型——DeepSeek-V3。 这个新模型拥有 6710 亿个参数,但采用了 MOE(混合专家)架构,能根据任务需求激活特定参数,每处理一个词元激 阅读全文
posted @ 2025-01-01 22:29 SDGVSBGDRH 阅读(6) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示