2025 年 2月 10 日随笔档案 - 雨梦山人

2025年2月10日

摘要：概述 Unsloth是一个支持Llama系列、DeepSeek R1系列更快速，更少占用内存的微调库。最近提供了DeepSeek-R1模型的复现与GRPO算法的高效实现，而GRPO算法是DeepSeek模型中最关键的RL算法，而Unsloth增强优化了GRPO算法，使其使用更少的huggingfac 阅读全文

posted @ 2025-02-10 11:39 雨梦山人阅读(24765) 评论(5) 推荐(2)

漫谈DeepSeek及其背后的核心技术

摘要：导读：本文深入探讨了DeepSeek大模型的核心技术，从公司背景、模型能力、训推成本到核心技术细节进行了全面分析。一、关于DeepSeek公司及其大模型 1.1 公司概况 DeepSeek 2023年7月成立于杭州，是幻方量化旗下的子公司，全称是杭州深度求索人工智能基础技术研究有限公司。 "成立时阅读全文

posted @ 2025-02-10 11:31 雨梦山人阅读(1529) 评论(0) 推荐(0)

雨梦山人

公告