大家好,我是晓凡。 写在前面 最近DeepSeek太火了,以至于每个小伙伴都想试试。DeepSeek 的到来可谓是开启了全民AI热潮。 本以为DeepSeek本地化部署有多难,实际上验证后很简单,操作起来就像给电脑装个新软件那么简单,大约十多分钟可完成本地部署。 今天咱们来聊聊如何在自己的电脑上本地 ...
前言 自 DeepSeek 推出以来,其回答质量备受好评。然而,许多用户在连续提问时经常遇到“服务器繁忙,请稍后再试”的提示。随着各大云服务商陆续部署 DeepSeek 的完整模型,我们其实可以通过这些厂商的 API,享受更加流畅和高效的 DeepSeek 体验,不仅响应速度更快,还能大幅减少因服务 ...
模型结构 MLA(Multi-Head Latent Attention) 主要作用是在保证效果的基础上, 利用低秩压缩的原理优化kvCache, 加速推理, 同时节省训练显存. 先回忆下MHA, 在每个head上, 分别经过K, V生成 $ attnweights=(W_Qh_i)^T∗(W_Kh ...
一、概述 高斯:近代数学之父、磁场单位,微分之父、几何学之父、测量之父、地图之父。 数学表示具有再现性和客观性,数学是自然科学的基础。 牛顿:stand on the shoulders of giants. 学数学:要通过解决数学问题,锻炼“思考体力”。 思考体力:①自我驱动力 ②多段思考力 ③ ...
LangChain 核心模块 Agent(构建复杂应用的代理系统) ReAct: Reasoning + Acting ReAct Prompt 由 few-shot task-solving trajectories 组成,包括人工编写的文本推理过程和动作,以及对 动作的环境观察. ReAct P ...
本文分享自华为云社区《一键部署+限免体验!盘点如何在华为云上体验DeepSeek》,作者:华为云社区精选。 还在为DeepSeek深度思考出现“服务器繁忙”而头疼?华为云带你一键在线体验和本地部署DeepSeek模型,200万Token免费领取+云主机极简安装体验,5分钟搞定!更有联网搜索AI应用搭 ...
欢迎来到 Physical AI 的最前沿!Seeed x LeRobot 具身智能黑客松现邀请所有对在机器人领域训练模仿学习策略,并实时进行推理部署感兴趣的人,共同创造具有影响力的创新解决方案。在这里,你可以与志同道合的开发者一起实践前沿机器人技术,获取免费硬件支持和独家资源,并快速在真实机器人系 ...
DeepSeek-R1 模型微调系列 DeepSeek-R1 模型微调系列一. 前言介绍本文内容:1.1 项目背景1.2 LoRA和 QLoRA 简介1.3 LLaMA 架构和 Qwen 架构LLaMA 架构Qwen 架构二. 环境准备2.1 Unsloth 安装(显卡版本-暂时不用)2.2 创建P ...
1. 实现方案及准备工作 按照教程一步一步操作,基本没有什么太大难度,稍显麻烦的可能就是因网络问题有些资源无法下载,对于镜像无法下载的问题,文中也提供了替代的方法,但是github访问不稳定这点,如果你不是上网达人,只能找朋友求助了。 本文档提供了两种部署方法:半本地化部署、完全本地化部署,你可以根 ...
DeepSeek AI集成到 WPS或Microsoft Office中, 由于deepseek被攻击或者非常繁忙导致超时的服务器,所以可以用硅基流动部署的DeepSeek 。当然用官网的也可以。 使用 OfficeAI 插件集成(wps为例): 下载并安装 OfficeAI 插件:从可靠的软件下载 ...
亲测可用,这个方法是由技术爬爬虾大佬提供,简单地说就是通过github上的docker_image_pusher项目,将国外docker镜像转存到阿里云私人仓库。 此方法需要你有一个github账号,有一个阿里云账号。注册方法这里就不赘述了。 1.1. 获取阿里云相关参数 登录阿里云容器镜像服务。地 ...
本书通过生动的故事和图解,介绍了自然语言处理技术的核心原理,涵盖N-Gram、Word2Vec、Transformer等技术的演进。书中提供动手实践的机会,帮助读者从零开始构建语言模型,适合AI初学者与从业者阅读。本文提供《GPT图解:大模型是怎样构建的》免费下载,包含pdf、epub格式。 ...
《DeepSeek从入门到精通2025》是由清华大学元宇宙文化实验室的余梦珑博士后及其团队撰写。文档的核心内容围绕DeepSeek的技术特点、应用场景、使用方法以及如何通过提示语设计提升AI使用效率等方面展开,帮助用户从入门到精通DeepSeek的使用。 以前我看了很多教程,都感觉特别花哨,没啥干货 ...
一、震惊!输入ai.com网址竟然见证历史 今天我在地址栏随手敲了个ai.com,结果网页"唰"地一下——居然跳到了国产AI新贵DeepSeek的官网!这感觉就像在胡同口买煎饼,结果老板递给我一块金砖啊 要知道这个ai.com可是全球科技圈的"传国玉玺",从1993年注册至今(整整32年历史! ...
评估你的评估结果 这是 让 LLM 来评判 系列文章的第三篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 在生产中或大规模使用 LLM 评估模型之前,你需要先评估它在目标任务的表现效果如何,确保它的评分跟期望的 ...
LangChain 核心模块:Data Conneciton - Document Transformers 一旦加载了文档,通常会希望对其进行转换以更好地适应您的应用程序。 最简单的例子是,您可能希望将长文档拆分为较小的块,以适应模型的上下文窗口。LangChain具有许多内置的文档转换器,可以轻 ...
引言 DeepSeek模型很强大,但官方目前存在以下几个痛点 不稳定:官方页面、官方API暂时只能提供有限的服务 成本高:满血版671B个人电脑很少能带得动的 本文介绍nas/云服务器 部署OpenWebUI+DeepSeek API,实现多端互通查询自由,主要有以下几个优点 成本低:不用昂贵的硬件 ...
本地一键运行大模型神器Ollama + DeepSeek R1尝鲜指南 作为AI领域的弄潮儿,你是否苦恼于云端大模型API的高昂成本?想在本机零门槛体验顶尖开源模型?这篇保姆级教程将带你解锁「Ollama+DeepSeek R1」黄金组合,文末附程序员专属玩法彩蛋! 一、Ollama:程序员的本地大 ...
刚接触 AI 和 PyTorch,理解 “张量 (Tensor)” 是入门关键。 简单来说,可将 PyTorch 中的张量 (Tensor) 理解为 Java 中的多维数组,但它比普通的 Java 数组强大得多,尤其在 AI 和深度学习领域。 1 张量(Tensor) VS Java 数组/列表 J ...