摘要: 概述 Unsloth是一个支持Llama系列、DeepSeek R1系列更快速,更少占用内存的微调库。最近提供了DeepSeek-R1模型的复现与GRPO算法的高效实现,而GRPO算法是DeepSeek模型中最关键的RL算法,而Unsloth增强优化了GRPO算法,使其使用更少的huggingfac 阅读全文
posted @ 2025-02-10 11:39 雨梦山人 阅读(14224) 评论(3) 推荐(2) 编辑
摘要: 导读:本文深入探讨了DeepSeek大模型的核心技术,从公司背景、模型能力、训推成本到核心技术细节进行了全面分析。 一、关于DeepSeek公司及其大模型 1.1 公司概况 DeepSeek 2023年7月成立于杭州,是幻方量化旗下的子公司,全称是杭州深度求索人工智能基础技术研究有限公司。 "成立时 阅读全文
posted @ 2025-02-10 11:31 雨梦山人 阅读(921) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示