02 2025 档案

摘要:概述 首发自个人公众号:阿郎小哥的随笔驿站 DeepSeek R1系列建议阅读之前的系列文章: 聊聊DeepSeek R1的一些总结 聊聊DeepSeek R1的开源复现库——Open R1之合成数据 聊聊DeepSeek R1的知识蒸馏与应用思考 简介 GRPO 是一种在线学习算法,这意味着它通过 阅读全文
posted @ 2025-02-07 13:58 又见阿郎 阅读(2868) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示