代码改变世界

随笔分类 -  LLM

DeepSeek V3 两周使用总结

2025-01-22 09:25 by 曾左, 8190 阅读, 收藏, 编辑
摘要: 2024 年 12 月 26 日,杭州深度求索人工智能基础技术研究有限公司发布 DeepSeek-V3 大模型。官方宣称:(1)基于自研的 MoE 模型和 671B 参数,在 14.8T token 上进行了预训练;(2)多项评测成绩超越了 Qwen2.5 - 72B 和 Llama - 3.1 - 阅读全文
点击右上角即可分享
微信分享提示