2025 年 2月 5 日随笔档案 - 第七子007

2025年2月5日

LLM大模型：deepseek浅度解析(三)：R1的reinforcement learning GRPO复现

摘要： deepseek-R1比较创新的点就是reward函数了，其自创的GRPO方法，详解如下：https://www.cnblogs.com/theseventhson/p/18696408 训练出了R1-zero和R1两个强化学习版本！幸运的是，GRPO的这个算法已经有人实现，并集成到huggingf 阅读全文

posted @ 2025-02-05 18:00 第七子007 阅读(1616) 评论(0) 推荐(2) 编辑

公告

昵称：第七子007
园龄： 4年8个月
粉丝： 578
关注： 7

+加关注

<

2025年2月

>

日

一

二

三

四

五

六

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

1

2

3

4

5

6

7

8

第七子007

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论