deepseek-v3 论文阅读
模型结构 MLA(Multi-Head Latent Attention) 主要作用是在保证效果的基础上, 利用低秩压缩的原理优化kvCache, 加速推理, 同时节省训练显存. 先回忆下MHA, 在每个head上, 分别经过K, V生成 $ attnweights=(W_Qh_i)^T∗(W_Kh ...
LangChain基础篇 (06)
LangChain 核心模块 Agent(构建复杂应用的代理系统) ReAct: Reasoning + Acting ReAct Prompt 由 few-shot task-solving trajectories 组成,包括人工编写的文本推理过程和动作,以及对 动作的环境观察. ReAct P ...
一键部署+限免体验!盘点如何在华为云上体验DeepSeek
本文分享自华为云社区《一键部署+限免体验!盘点如何在华为云上体验DeepSeek》,作者:华为云社区精选。 还在为DeepSeek深度思考出现“服务器繁忙”而头疼?华为云带你一键在线体验和本地部署DeepSeek模型,200万Token免费领取+云主机极简安装体验,5分钟搞定!更有联网搜索AI应用搭 ...
小白也能看懂的大模型书籍《GPT图解:大模型是怎样构建的》PDF免费下载
本书通过生动的故事和图解,介绍了自然语言处理技术的核心原理,涵盖N-Gram、Word2Vec、Transformer等技术的演进。书中提供动手实践的机会,帮助读者从零开始构建语言模型,适合AI初学者与从业者阅读。本文提供《GPT图解:大模型是怎样构建的》免费下载,包含pdf、epub格式。 ...
传国玉玺易主,ai.com竟然跳转到国产AI
一、震惊!输入ai.com网址竟然见证历史 今天我在地址栏随手敲了个ai.com,结果网页"唰"地一下——居然跳到了国产AI新贵DeepSeek的官网!这感觉就像在胡同口买煎饼,结果老板递给我一块金砖啊 要知道这个ai.com可是全球科技圈的"传国玉玺",从1993年注册至今(整整32年历史! ...
让 LLM 来评判 | 评估你的评估结果
评估你的评估结果 这是 让 LLM 来评判 系列文章的第三篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 在生产中或大规模使用 LLM 评估模型之前,你需要先评估它在目标任务的表现效果如何,确保它的评分跟期望的 ...
LangChain基础篇 (05)
LangChain 核心模块:Data Conneciton - Document Transformers 一旦加载了文档,通常会希望对其进行转换以更好地适应您的应用程序。 最简单的例子是,您可能希望将长文档拆分为较小的块,以适应模型的上下文窗口。LangChain具有许多内置的文档转换器,可以轻 ...
轻松部署OpenWebUI+DeepSeek API,实现多端互通查询自由
引言 DeepSeek模型很强大,但官方目前存在以下几个痛点 不稳定:官方页面、官方API暂时只能提供有限的服务 成本高:满血版671B个人电脑很少能带得动的 本文介绍nas/云服务器 部署OpenWebUI+DeepSeek API,实现多端互通查询自由,主要有以下几个优点 成本低:不用昂贵的硬件 ...
Java工程师如何理解张量?
刚接触 AI 和 PyTorch,理解 “张量 (Tensor)” 是入门关键。 简单来说,可将 PyTorch 中的张量 (Tensor) 理解为 Java 中的多维数组,但它比普通的 Java 数组强大得多,尤其在 AI 和深度学习领域。 1 张量(Tensor) VS Java 数组/列表 J ...
Gemini 2.0 现已面向所有人开放
以下GOOGLE 原文BLOG翻译 0205发表 去年 12 月,我们通过发布 Gemini 2.0 Flash 的实验版本开启了“代理时代”——这是我们的高效工作模型,专为开发者设计,具有低延迟和增强性能。今年早些时候,我们在 Google AI Studio 中更新了 2.0 Flash Thi ...
DeepSeek-R1论文细节时间线梳理
0 前言 2025年1月10日,DeepSeek发布名为R1的大语言模型,该初创公司声称其在推理任务上可与OpenAI的ChatGPT o1媲美。该应用在创纪录的时间内登顶App Store排行榜,不仅吸引科技行业关注,也引发了全球范围内的广泛讨论。其中一个尤引人注目的声明是:该模型训练成本低于60 ...
Huggingface使用
目录1. Transformer模型1.1 核心组件1.2 模型结构1.3 Transformer 使用1.3.1 使用 Hugging Face Transformers 库1.3.2 自定义 Transformer 模型1.3.3 Transformer 的 Demo1.3.3.1 安装依赖1. ...
LangChain基础篇 (04)
LangChain 核心模块:Data Conneciton - Document Loaders 使用文档加载器从源中加载数据作为文档。一个文档是一段文字和相关的元数据。 如,有用于加载简单 .txt 文件的文档加载器,用于加载 ArXiv 论文,或者任何网页的文本内容 Document 类 这段 ...
三分钟让Dify接入Ollama部署的本地大模型!
1 运行 Ollama 与 qwen2:0.5b 聊天 ollama run qwen2:0.5b 启动成功后,ollama 在本地 11434 端口启动了一个 API 服务,可通过 http://localhost:11434 访问。 2 Dify 中接入 Ollama 2.1 添加模型 在 设置 ...
通过Ollama本地部署DeepSeek R1以及简单使用的教程(超详细)
本文介绍了在Windows环境下,通过Ollama来本地部署DeepSeek R1。该问包含了Ollama的下载、安装(命令和双击安装)、安装目录迁移、大模型存储位置修改、下载DeepSeek以及通过Web UI来对话等相关内容。 1、下载Ollama 首先我们到Ollama官网去下载安装包,此 ...
如何在WPS和Word/Excel中直接使用DeepSeek功能
以下是将DeepSeek功能集成到WPS中的详细步骤,无需本地部署模型,直接通过官网连接使用:1. 下载并安装OfficeAI插件 (1)访问OfficeAI插件下载地址:https://www.office-ai.cn/,下载插件(目前只支持windows系统)。 OfficeAI 助手 是一款免 ...
聊聊GRPO算法——从Open R1来看如何训练DeepSeek R1模型
概述 首发自个人公众号:阿郎小哥的随笔驿站 DeepSeek R1系列建议阅读之前的系列文章: 聊聊DeepSeek R1的一些总结 聊聊DeepSeek R1的开源复现库——Open R1之合成数据 聊聊DeepSeek R1的知识蒸馏与应用思考 简介 GRPO 是一种在线学习算法,这意味着它通过 ...
免费+数据安全!手把手教你在PC跑DeepSeek-R1大模型,小白也能秒变AI大神!
0 为啥本地部署? 在本地运行 AI 模型具有以下优势: 隐私:你的数据保留在你的机器上 — — 不存在共享敏感信息的风险 成本: DeepSeek R1 可免费使用,无需订阅费或使用费 控制:无需外部依赖即可进行微调和实验 1 使用Ollama 1.1 下载并运行应用程序 直达官网: 1.2 选择 ...
[megatron代码阅读] 2. TP和PP实现
训练并行实现 TensorParallel 张量并行代码路径, 代码路径: megatron/core/tensor_parallel 主要包含Linear / VocabEmbedding / cross_entropy 三部分. Linear 参数初始化 如果是从checkpoint热启, pe ...
博问已解决问题»
- PortableApps等U盘使用的便携软件数据存储问题?
- 什么是云计算?它有哪些主要服务类型和应用?
- 使用阿里云计算巢部署 DeepSeek-R1 遇到问题
- DeepSeek 官方平台是否提供了生成 embedding 的 api 以及 token 费用是多少
- clickhouse pod 无法启动
- EPPlus 读取 xlsx 文件异常,提示 Bad signature (0x71CA947A) at position 0x010B6489
- 请教大神们一个halcon图像相似度的问题
- angular 项目 build 时报错:"TS2688: Cannot find type definition file for 'faker'"