随笔 - 934, 文章 - 0, 评论 - 247, 阅读 - 344万

导航

< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8

2025年2月10日

摘要: DeepSeek-R1的训练流程包含四个阶段,分为两个强化学习(RL)阶段和两个监督微调(SFT)阶段。 https://github.com/deepseek-ai/DeepSeek-R1 第一阶段:Cold Start(冷启动,SFT阶段) 要解决的问题 初始不稳定性和可读性差:直接从基模型启动 阅读全文

posted @ 2025-02-10 08:45 蝈蝈俊 阅读(1360) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示