2025年1月29日
摘要: 题目截图推理解析解题原理强化学习为核心: DeepSeek R1颠覆了传统路线,采用了大规模的强化学习(RL)来激发推理能力。这种学习模式使模型能够在没有或仅有少量监督微调的情况下,通过奖励信号来探索并形成自己的思维链。 DeepSeek R1-Zero更是完全依赖强化学习来习得复杂推理技能,从未进 阅读全文
posted @ 2025-01-29 10:48 PetterLiu 阅读(227) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示