02 2025 档案

摘要:解密prompt系列49. 回顾R1之前的思维链发展路线我先按照自己的思路来梳理下R1之前整个模型思维链的发展过程,可以分成3个阶段:大模型能思考,外生慢思考,内生慢思考 阅读全文
posted @ 2025-02-24 08:09 风雨中的小七 阅读(253) 评论(0) 推荐(1) 编辑
摘要:解密prompt系列48. DeepSeek R1 & Kimi 1.5长思维链 - RL Scaling春节前DeepSeek R1和Kimi1.5炸翻天了,之前大家推测的O1的实现路径,多数都集中在MCTS推理优化,以及STaR等样本自优化方案等等,结果DeepSeek和Kiim直接出手揭示了reasoning的新路线不一定在SFT和Inference Scaling,也可以在RL。也算是Post Train阶段新的Scaling方向,几个核心Take Away包括 阅读全文
posted @ 2025-02-14 20:35 风雨中的小七 阅读(508) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示