02 2025 档案

DeepSeek-V3 解读：优化效率与规模

摘要：

DeepSeek-V3 解读：优化效率与规模

DeepSeek-V3 是大语言模型（LLM）领域的一项变革性进展，为开源人工智能设定了新的标杆。作为一个拥有 6710 亿参数的专家混合（Mixture-of-Experts，MoE）模型，其中每个 token 激活 370 亿参数。它引入了多头潜在注意力（Multi-Head Latent Attention，MLA）、无需辅助损失的负载均衡以及多 token 预测等创新技术，DeepSeek-V3 在编程、数学和推理任务中展现出了前所未有的能力。本文将深入探讨其架构、训练策略、创新点以及实际应用场景。阅读全文

posted @ 2025-02-17 09:22 Rickie 阅读(723) 评论(0) 推荐(0) 编辑

公告

Enjoy Coding Experience

These postings are provided "AS IS" with no warranties, and confer no rights.
所有贴子都只代表我个人观点，皆以“现状”提供且没有任何担保，同时也没有授予任何权利。

版权所有 All Rights Reserved.
联系方式：

昵称： Rickie
园龄： 20年8个月
粉丝： 175
关注： 0

<

2025年2月

>

日

一

二

三

四

五

六

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

1

2

3

4

5

6

7

8

随笔分类

随笔档案

文章分类

转载的技术文档(3)

文章档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:推荐IntelliJ IDEA Rainbow Brackets 插件的安装与使用
这个需要激活~~~
--luoshupeng
2. Re:RedisInsight ：Redis 官方可视化工具
推荐一个Redis可视化工具，小巧快速+实时监控服务，官网地址：
--serene1312
3. Re:COLA 4.x和DDD项目实践精粹
头条购买了，源码下载不了，能发份源码到邮箱吗？361801081@qq.com
--aadoudou
4. Re:COLA 4.x和DDD项目实践精粹
靠！这个系列我在头条里付费了，用手机看着体验实在是太差了
--wenwuxianren
5. Re:DDD领域驱动设计架构模式：防腐层（Anti-corruption layer）
基本看懂了，有用的
--紫色的海丶雪