摘要:
概述 Unsloth是一个支持Llama系列、DeepSeek R1系列更快速,更少占用内存的微调库。最近提供了DeepSeek-R1模型的复现与GRPO算法的高效实现,而GRPO算法是DeepSeek模型中最关键的RL算法,而Unsloth增强优化了GRPO算法,使其使用更少的huggingfac 阅读全文
摘要:
导读:本文深入探讨了DeepSeek大模型的核心技术,从公司背景、模型能力、训推成本到核心技术细节进行了全面分析。 一、关于DeepSeek公司及其大模型 1.1 公司概况 DeepSeek 2023年7月成立于杭州,是幻方量化旗下的子公司,全称是杭州深度求索人工智能基础技术研究有限公司。 "成立时 阅读全文