02 2025 档案

摘要：概述首发自个人公众号：阿郎小哥的随笔驿站 DeepSeek R1系列建议阅读之前的系列文章：聊聊DeepSeek R1的一些总结聊聊DeepSeek R1的开源复现库——Open R1之合成数据聊聊DeepSeek R1的知识蒸馏与应用思考简介 GRPO 是一种在线学习算法，这意味着它通过阅读全文

posted @ 2025-02-07 13:58 又见阿郎阅读(2868) 评论(0) 推荐(1) 编辑

公告

昵称：又见阿郎
园龄： 8年8个月
粉丝： 63
关注： 63

+加关注

<

2025年2月

>

日

一

二

三

四

五

六

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

1

2

3

4

5

6

7

8

随笔档案

阅读排行榜

评论排行榜

最新评论

1. Re:聊聊ChatGLM3多用户并发API调用的问题
一般来说，神经网络模型本身是顺序执行的，特别是当前的大语言模型，需要通过多轮的token预测，在一个会话中模型的前向传播会频繁的处理输入生成输出，理论上确实存在并行的情况，也就是说每一层在处理完毕后确...
--a1010
2. Re:聊聊大模型"打字机"效果的背后技术——SSE
我记得微软的 New Bing 是用 WebSocket 来实现的（毕竟用的 SignalR）
--Baka632
3. Re:聊聊大模型微调训练全流程的思考
图挂了
--SongShiYan
4. Re:聊聊大模型微调训练全流程的思考
图片全都不能看
--winds_随风
5. Re:聊聊ChatGLM-6B医疗数据微调
看不到图片
--一只小帕吉

又见阿郎

02 2025 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论