02 2025 档案

LLM大模型：kimi k1.5 VS deepseek R1

摘要：2025春节期间IT圈最火爆的莫过于deepseek了，R1模型利用reinforcement learning掀起了滔天巨浪，一时间deepseek无人不知，无人不晓！但其实和R1同一时间发布的还有kimi k1.5,也是通过强化学习提升reasoning性能的，但可能是因为deepseek做了部阅读全文

posted @ 2025-02-24 12:22 第七子007 阅读(33) 评论(0) 推荐(0) 编辑

LLM大模型：deepseek浅度解析(三)：R1的reinforcement learning GRPO复现

摘要：deepseek-R1比较创新的点就是reward函数了，其自创的GRPO方法，详解如下：https://www.cnblogs.com/theseventhson/p/18696408 训练出了R1-zero和R1两个强化学习版本！幸运的是，GRPO的这个算法已经有人实现，并集成到huggingf 阅读全文

posted @ 2025-02-05 18:00 第七子007 阅读(1616) 评论(0) 推荐(2) 编辑

LLM大模型：deepseek浅度解析(二)：R1的GRPO原理

摘要：chatGPT3.5、4.0、4o这些版本发布后，因为效果相比以往的NLP产品比，确实有质的提升，所以引起了很大的轰动。但也有部分AI学术巨头吐槽说transformer架构根本不是真正的AGI，原理上讲本质就是个统计模型：通过海量训练数据的统计信息来计算next token的概率，并不具备真正的思阅读全文

posted @ 2025-02-02 12:42 第七子007 阅读(4022) 评论(1) 推荐(1) 编辑

公告

昵称：第七子007
园龄： 4年8个月
粉丝： 578
关注： 7

+加关注

2025年2月

日

一

二

三

四

五

六

第七子007

02 2025 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论