摘要: 解密prompt系列48. DeepSeek R1 & Kimi 1.5长思维链 - RL Scaling 春节前DeepSeek R1和Kimi1.5炸翻天了,之前大家推测的O1的实现路径,多数都集中在MCTS推理优化,以及STaR等样本自优化方案等等,结果DeepSeek和Kiim直接出手揭示了reasoning的新路线不一定在SFT和Inference Scaling,也可以在RL。也算是Post Train阶段新的Scaling方向,几个核心Take Away包括 阅读全文
posted @ 2025-02-14 20:35 风雨中的小七 阅读(508) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示