摘要: deepseek-R1比较创新的点就是reward函数了,其自创的GRPO方法,详解如下:https://www.cnblogs.com/theseventhson/p/18696408 训练出了R1-zero和R1两个强化学习版本!幸运的是,GRPO的这个算法已经有人实现,并集成到huggingf 阅读全文
posted @ 2025-02-05 18:00 第七子007 阅读(1616) 评论(0) 推荐(2) 编辑
点击右上角即可分享
微信分享提示