会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
PetterLiu
Let the instinct guide you.
博客园
::
首页
::
新随笔
::
联系
::
订阅
::
管理
公告
2025年1月29日
DeepSeek R1 解题推理实践PMP试题
摘要: 题目截图推理解析解题原理强化学习为核心: DeepSeek R1颠覆了传统路线,采用了大规模的强化学习(RL)来激发推理能力。这种学习模式使模型能够在没有或仅有少量监督微调的情况下,通过奖励信号来探索并形成自己的思维链。 DeepSeek R1-Zero更是完全依赖强化学习来习得复杂推理技能,从未进
阅读全文
posted @ 2025-01-29 10:48 PetterLiu
阅读(227)
评论(0)
推荐(0)
编辑
点击右上角即可分享