02 2025 档案

摘要：

我先按照自己的思路来梳理下R1之前整个模型思维链的发展过程，可以分成3个阶段：大模型能思考，外生慢思考，内生慢思考阅读全文

posted @ 2025-02-24 08:09 风雨中的小七阅读(253) 评论(0) 推荐(1) 编辑

解密prompt系列48. DeepSeek R1 & Kimi 1.5长思维链 - RL Scaling

摘要：

春节前DeepSeek R1和Kimi1.5炸翻天了，之前大家推测的O1的实现路径，多数都集中在MCTS推理优化，以及STaR等样本自优化方案等等，结果DeepSeek和Kiim直接出手揭示了reasoning的新路线不一定在SFT和Inference Scaling，也可以在RL。也算是Post Train阶段新的Scaling方向，几个核心Take Away包括阅读全文

posted @ 2025-02-14 20:35 风雨中的小七阅读(508) 评论(0) 推荐(0) 编辑

2025年2月

日

一

二

三

四

五

六

风雨中的小七

02 2025 档案

我的标签

合集 (7)

随笔档案 (114)

阅读排行榜

评论排行榜

推荐排行榜

最新评论