摘要: 强化学习(Reinforcement Learning, RL)已成为提升大型语言模型(Large Language Models, LLMs)推理能力的重要技术手段,特别是在需要复杂推理的任务中。DeepSeek 团队在 DeepSeek-Math [2] 和 DeepSeek-R1 [3] 模型 阅读全文
posted @ 2025-02-14 10:18 deephub 阅读(75) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示