随笔档案「2025年1月28日」：DeepSeek-R1：开源Top推理模型的实现细节、使用与复现 ... - 深度学习机器

2025年1月28日

摘要：核心观点 ● 直接用强化学习就可以让模型获得显著的推理能力，说明并不一定需要SFT才行。 ● 强化学习并不一定需要复杂的奖励模型，使用简单的规则反而取得意想不到的效果。 ● 通过知识蒸馏让小模型一定程度上也有推理能力，甚至在某些场景下的表现超过了Top模型，比直接在小模型上进行强化学习更好。 Dee 阅读全文

posted @ 2025-01-28 10:42 深度学习机器阅读(4487) 评论(0) 推荐(0)

deeplearningmachine

公告