02 2025 档案
摘要:智能总结: 这篇文章深入探讨了如何通过微调技术来优化大语言模型(如 DeepSeek)的表现,使其在特定领域或任务中更具优势。文章首先解释了微调的必要性及其在特定领域中的应用场景,并将微调与长文本处理、知识库的使用进行对比,帮助读者理解何时选择微调。接着,文章详细介绍了微调的基本流程,包括选择预训练
阅读全文
摘要:1. DeepSeek蒸馏技术概述 1.1 蒸馏技术定义与原理 模型蒸馏(Knowledge Distillation)是一种将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)的技术。其核心目标是在保持模型性能的同时,显著降低模型的计算复杂度和存储需求,使其更适合在资源受限的环境中部署。
阅读全文
摘要:前言 DeepSeek系列大模型由杭州深度求索人工智能基础技术研究有限公司提供,该系列大模型有以下这些优势: 高性价比:DeepSeek-V2模型以其史无前例的性价比著称,推理成本被降到每百万token仅1块钱,约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。 架构创新:D
阅读全文
摘要:不得不说,将DeepSeek-R1接入WPS真的惊呆我了!这意味着什么?简单来说,文档编辑从“手动挡”进化成了“自动挡”!不管是生成内容、优化表达,甚至是逻辑推理分析,AI都能直接帮你搞定,爽到飞起! 今天就来给大家聊聊,如何在WPS里接入 DeepSeek-R1,一步步带你从零配置到实战,让AI真
阅读全文
摘要:概述 Unsloth是一个支持Llama系列、DeepSeek R1系列更快速,更少占用内存的微调库。最近提供了DeepSeek-R1模型的复现与GRPO算法的高效实现,而GRPO算法是DeepSeek模型中最关键的RL算法,而Unsloth增强优化了GRPO算法,使其使用更少的huggingfac
阅读全文
摘要:导读:本文深入探讨了DeepSeek大模型的核心技术,从公司背景、模型能力、训推成本到核心技术细节进行了全面分析。 一、关于DeepSeek公司及其大模型 1.1 公司概况 DeepSeek 2023年7月成立于杭州,是幻方量化旗下的子公司,全称是杭州深度求索人工智能基础技术研究有限公司。 "成立时
阅读全文
摘要:一、背景 二、简介 什么是RAG RAG应用的可落地场景 RAG应用的主要组成部分 4. RAG应用的核心流程 三、实现目标 四、整体流程 技术选型 准确性思考 用户提问结构化 4. 数据预处理与向量库的准备工作 5. CO-STAR结构 6. 相似性搜索 用户提问解答 8. Runnable的结合
阅读全文
摘要:最近国产AI大模型DeepSeek爆火出圈,登顶中美App Store下载榜,还在性能、性价比上碾压了ChatGPT和Google Gemini等硅谷巨头,直接杀入科技圈C位,成为现象级应用! 然而,不少小伙伴在使用的时候,经常会出现响应迟缓甚至宕机的情况👇 这可怎么办? 万幸的是,DeepSee
阅读全文