会员
商店
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
风雨中的小七
博客园
首页
新随笔
联系
订阅
管理
2025年3月25日
解密prompt系列51. R1实验的一些细节讨论
摘要:
DeepSeek R1出来后业界都在争相复现R1的效果,这一章我们介绍两个复现项目SimpleRL和LogicRL,还有研究模型推理能力的Cognitive Behaviour,项目在复现R1的同时还针对R1训练策略中的几个关键点进行了讨论和消融实验,包括
阅读全文
posted @ 2025-03-25 07:34 风雨中的小七
阅读(156)
评论(0)
推荐(0)
编辑
2025年3月10日
解密prompt系列50. RL用于优化Agent行为路径的一些思路
摘要:
而Deep Research的效果类似O1的长思考是非常长的行为链,OpenAI也直接表明Deep Research是使用和O1相同的RL训练得到的。但这里比O1更难的就是数据集的设计,训练过程动态行为数据的引入和RL目标的选择。这一章我们分别介绍从两个不同角度使用RL优化Agent行为链路的方案,其中PaSa更类似Deep Research的链式行为链使用RL直接优化行为路径,而ARMAP则是使用RL优化Verifier指导行为链的生成。
阅读全文
posted @ 2025-03-10 07:30 风雨中的小七
阅读(246)
评论(0)
推荐(0)
编辑
2025年2月24日
解密prompt系列49. 回顾R1之前的思维链发展路线
摘要:
我先按照自己的思路来梳理下R1之前整个模型思维链的发展过程,可以分成3个阶段:大模型能思考,外生慢思考,内生慢思考
阅读全文
posted @ 2025-02-24 08:09 风雨中的小七
阅读(407)
评论(0)
推荐(1)
编辑
2025年2月14日
解密prompt系列48. DeepSeek R1 & Kimi 1.5长思维链 - RL Scaling
摘要:
春节前DeepSeek R1和Kimi1.5炸翻天了,之前大家推测的O1的实现路径,多数都集中在MCTS推理优化,以及STaR等样本自优化方案等等,结果DeepSeek和Kiim直接出手揭示了reasoning的新路线不一定在SFT和Inference Scaling,也可以在RL。也算是Post Train阶段新的Scaling方向,几个核心Take Away包括
阅读全文
posted @ 2025-02-14 20:35 风雨中的小七
阅读(860)
评论(0)
推荐(0)
编辑
2025年1月22日
解密prompt系列47. O1 Long Thought的一些特征分析
摘要:
O1之后,思维链的一个简单但之前都没进入视野的特征引起了大家的注意,那就是思考的长度对推理效果的影响,更准确来说是通过哪些思考步骤来有效延长思维长度对推理的影响。这一章我们着重讨论思考长度
阅读全文
posted @ 2025-01-22 07:41 风雨中的小七
阅读(256)
评论(0)
推荐(0)
编辑
2025年1月4日
解密prompt系列46. LLM结构化输出代码示例和原理分析
摘要:
这一章我们先结合demo看下开源和闭源对结构化输出的支持,随后会介绍Constrained Decoding和Format Restricting Instructions 两种结构化输出约束方案,最后会给出结构化输出对比自然语言输出的一些观点。
阅读全文
posted @ 2025-01-04 11:07 风雨中的小七
阅读(489)
评论(0)
推荐(1)
编辑
2024年12月30日
解密Prompt45. 再探LLM Scalable Oversight -辩论、博弈哪家强
摘要:
以上两个方向相对正交分别从Verifier和Generator两个方去尝试解决Scalable Oversight的问题,今天再聊一个相对Hybrid的方向,通过Verifier和Generator相互博弈来同时提升双方实力。这里分别介绍Anthropic的辩论法,和OpenAI的博弈法
阅读全文
posted @ 2024-12-30 08:31 风雨中的小七
阅读(247)
评论(0)
推荐(0)
编辑
2024年12月14日
解密prompt系列44. RAG探索模式?深度思考模式?
摘要:
前一阵多步RAG的风吹入了工业界,kimi推出了探索版本,各应用都推出了深度搜索,You.COM更是早就有了Genius的多步模式。其实都是类似multi-hop RAG的实现
阅读全文
posted @ 2024-12-14 09:04 风雨中的小七
阅读(376)
评论(0)
推荐(0)
编辑
2024年11月25日
解密prompt系列43. LLM Self Critics
摘要:
在模型持续提升的道路上,只提升Generator能力是不够的,需要同步提升Supervisor、Verifier的能力,才能提供有效的监督优化信号。人类提供的监督信号有几类,包括人工直接生成最优回答
阅读全文
posted @ 2024-11-25 08:07 风雨中的小七
阅读(299)
评论(0)
推荐(0)
编辑
2024年11月15日
解密prompt系列42. LLM通往动态复杂思维链之路
摘要:
想要更优的Inference Time Scaling曲线,前提是模型本身是一个很强的Generator,已经拥有足够的生成合理推理过程的能力,同时还拥有很强的Verifier模型来对推理节点进行打分决策,并且二者可以在少人类监督的条件下不断迭代优化。这一章我们先聊聊如何让大模型"自学"推理思考,从而得到思考推理能力更强的Generator。
阅读全文
posted @ 2024-11-15 07:49 风雨中的小七
阅读(628)
评论(0)
推荐(0)
编辑
下一页
点击右上角即可分享