摘要: 如何训练LLM“思考”(像o1和DeepSeek-R1一样, 高级推理模型解析 2024年9月,OpenAI发布了它的o1模型,该模型基于大规模强化学习训练,赋予了它“高级推理”能力。不幸的是,他们是如何做到这一点的细节从未被公开披露。然而,今天,DeepSeek(一个AI研究实验室)成功复现了这种推理行为,并公开了他们方法的完整技术细节。在这篇文章中,我将讨论这一创新背后的关 阅读全文
posted @ 2025-02-18 10:17 果冻人工智能 阅读(415) 评论(2) 推荐(2) 编辑