摘要: 核心观点 ● 直接用强化学习就可以让模型获得显著的推理能力,说明并不一定需要SFT才行。 ● 强化学习并不一定需要复杂的奖励模型,使用简单的规则反而取得意想不到的效果。 ● 通过知识蒸馏让小模型一定程度上也有推理能力,甚至在某些场景下的表现超过了Top模型,比直接在小模型上进行强化学习更好。 Dee 阅读全文
posted @ 2025-01-28 10:42 深度学习机器 阅读(3446) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示