0

deepseek-v3 论文阅读

模型结构 MLA(Multi-Head Latent Attention) 主要作用是在保证效果的基础上, 利用低秩压缩的原理优化kvCache, 加速推理, 同时节省训练显存. 先回忆下MHA, 在每个head上, 分别经过K, V生成 $ attnweights=(W_Qh_i)^T∗(W_Kh ...

SunStriKE 发布于 2025-02-12 21:15 评论(0) 阅读(81)
0

LangChain基础篇 (06)

LangChain 核心模块 Agent(构建复杂应用的代理系统) ReAct: Reasoning + Acting ReAct Prompt 由 few-shot task-solving trajectories 组成,包括人工编写的文本推理过程和动作,以及对 动作的环境观察. ReAct P ...

nmblr 发布于 2025-02-12 19:48 评论(0) 阅读(24)
1

一键部署+限免体验!盘点如何在华为云上体验DeepSeek

本文分享自华为云社区《一键部署+限免体验!盘点如何在华为云上体验DeepSeek》,作者:华为云社区精选。 还在为DeepSeek深度思考出现“服务器繁忙”而头疼?华为云带你一键在线体验和本地部署DeepSeek模型,200万Token免费领取+云主机极简安装体验,5分钟搞定!更有联网搜索AI应用搭 ...

华为云开发者联盟 发布于 2025-02-12 16:37 评论(0) 阅读(145)
0

小白也能看懂的大模型书籍《GPT图解:大模型是怎样构建的》PDF免费下载

本书通过生动的故事和图解,介绍了自然语言处理技术的核心原理,涵盖N-Gram、Word2Vec、Transformer等技术的演进。书中提供动手实践的机会,帮助读者从零开始构建语言模型,适合AI初学者与从业者阅读。本文提供《GPT图解:大模型是怎样构建的》免费下载,包含pdf、epub格式。 ...

不知名也 发布于 2025-02-12 10:18 评论(0) 阅读(20)
3

传国玉玺易主,ai.com竟然跳转到国产AI

一、震惊!输入ai.com网址竟然见证历史 今天我在地址栏随手敲了个ai.com,结果网页"唰"地一下——居然跳到了国产AI新贵DeepSeek的官网!这感觉就像在胡同口买煎饼,结果老板递给我一块金砖啊 要知道这个ai.com可是全球科技圈的"传国玉玺",从1993年注册至今(整整32年历史! ...

程序员晓凡 发布于 2025-02-12 07:43 评论(2) 阅读(1269)
0

让 LLM 来评判 | 评估你的评估结果

评估你的评估结果 这是 让 LLM 来评判 系列文章的第三篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 在生产中或大规模使用 LLM 评估模型之前,你需要先评估它在目标任务的表现效果如何,确保它的评分跟期望的 ...

HuggingFace 发布于 2025-02-11 21:48 评论(0) 阅读(132)
0

LangChain基础篇 (05)

LangChain 核心模块:Data Conneciton - Document Transformers 一旦加载了文档,通常会希望对其进行转换以更好地适应您的应用程序。 最简单的例子是,您可能希望将长文档拆分为较小的块,以适应模型的上下文窗口。LangChain具有许多内置的文档转换器,可以轻 ...

nmblr 发布于 2025-02-11 21:23 评论(0) 阅读(95)
0

轻松部署OpenWebUI+DeepSeek API,实现多端互通查询自由

引言 DeepSeek模型很强大,但官方目前存在以下几个痛点 不稳定:官方页面、官方API暂时只能提供有限的服务 成本高:满血版671B个人电脑很少能带得动的 本文介绍nas/云服务器 部署OpenWebUI+DeepSeek API,实现多端互通查询自由,主要有以下几个优点 成本低:不用昂贵的硬件 ...

陈其苗 发布于 2025-02-11 11:03 评论(0) 阅读(1009)
2

基于deepseek模型知识库,Cherry Studio和AnythingLLM使用效果对比

网上有很多构建本地知识库的文章,我们更应该更深入应用,对比不同的应用效果,才能发挥知识库本身的价值。 ...

iNeuOS工业互联网系统 发布于 2025-02-10 11:49 评论(9) 阅读(1449)
0

Java工程师如何理解张量?

刚接触 AI 和 PyTorch,理解 “张量 (Tensor)” 是入门关键。 简单来说,可将 PyTorch 中的张量 (Tensor) 理解为 Java 中的多维数组,但它比普通的 Java 数组强大得多,尤其在 AI 和深度学习领域。 1 张量(Tensor) VS Java 数组/列表 J ...

公众号-JavaEdge 发布于 2025-02-09 21:31 评论(0) 阅读(5)
0

Gemini 2.0 现已面向所有人开放

以下GOOGLE 原文BLOG翻译 0205发表 去年 12 月,我们通过发布 Gemini 2.0 Flash 的实验版本开启了“代理时代”——这是我们的高效工作模型,专为开发者设计,具有低延迟和增强性能。今年早些时候,我们在 Google AI Studio 中更新了 2.0 Flash Thi ...

PetterLiu 发布于 2025-02-09 20:28 评论(0) 阅读(212)
0

DeepSeek-R1论文细节时间线梳理

0 前言 2025年1月10日,DeepSeek发布名为R1的大语言模型,该初创公司声称其在推理任务上可与OpenAI的ChatGPT o1媲美。该应用在创纪录的时间内登顶App Store排行榜,不仅吸引科技行业关注,也引发了全球范围内的广泛讨论。其中一个尤引人注目的声明是:该模型训练成本低于60 ...

公众号-JavaEdge 发布于 2025-02-08 23:54 评论(0) 阅读(194)
0

Huggingface使用

目录1. Transformer模型1.1 核心组件1.2 模型结构1.3 Transformer 使用1.3.1 使用 Hugging Face Transformers 库1.3.2 自定义 Transformer 模型1.3.3 Transformer 的 Demo1.3.3.1 安装依赖1. ...

chaplinthink 发布于 2025-02-08 14:47 评论(0) 阅读(279)
0

LangChain基础篇 (04)

LangChain 核心模块:Data Conneciton - Document Loaders 使用文档加载器从源中加载数据作为文档。一个文档是一段文字和相关的元数据。 如,有用于加载简单 .txt 文件的文档加载器,用于加载 ArXiv 论文,或者任何网页的文本内容 Document 类 这段 ...

nmblr 发布于 2025-02-07 19:57 评论(0) 阅读(159)
0

三分钟让Dify接入Ollama部署的本地大模型!

1 运行 Ollama 与 qwen2:0.5b 聊天 ollama run qwen2:0.5b 启动成功后,ollama 在本地 11434 端口启动了一个 API 服务,可通过 http://localhost:11434 访问。 2 Dify 中接入 Ollama 2.1 添加模型 在 设置 ...

公众号-JavaEdge 发布于 2025-02-07 16:40 评论(0) 阅读(536)
30

通过Ollama本地部署DeepSeek R1以及简单使用的教程(超详细)

本文介绍了在Windows环境下,通过Ollama来本地部署DeepSeek R1。该问包含了Ollama的下载、安装(命令和双击安装)、安装目录迁移、大模型存储位置修改、下载DeepSeek以及通过Web UI来对话等相关内容。 1、下载Ollama 首先我们到Ollama官网去下载安装包,此 ...

Qubernet 发布于 2025-02-07 14:32 评论(25) 阅读(10286)
9

如何在WPS和Word/Excel中直接使用DeepSeek功能

以下是将DeepSeek功能集成到WPS中的详细步骤,无需本地部署模型,直接通过官网连接使用:1. 下载并安装OfficeAI插件 (1)访问OfficeAI插件下载地址:https://www.office-ai.cn/,下载插件(目前只支持windows系统)。 OfficeAI 助手 是一款免 ...

麻雀小妖 发布于 2025-02-07 14:16 评论(12) 阅读(19158)
1

聊聊GRPO算法——从Open R1来看如何训练DeepSeek R1模型

概述 首发自个人公众号:阿郎小哥的随笔驿站 DeepSeek R1系列建议阅读之前的系列文章: 聊聊DeepSeek R1的一些总结 聊聊DeepSeek R1的开源复现库——Open R1之合成数据 聊聊DeepSeek R1的知识蒸馏与应用思考 简介 GRPO 是一种在线学习算法,这意味着它通过 ...

又见阿郎 发布于 2025-02-07 13:59 评论(0) 阅读(1772)
0

免费+数据安全!手把手教你在PC跑DeepSeek-R1大模型,小白也能秒变AI大神!

0 为啥本地部署? 在本地运行 AI 模型具有以下优势: 隐私:你的数据保留在你的机器上 — — 不存在共享敏感信息的风险 成本: DeepSeek R1 可免费使用,无需订阅费或使用费 控制:无需外部依赖即可进行微调和实验 1 使用Ollama 1.1 下载并运行应用程序 直达官网: 1.2 选择 ...

公众号-JavaEdge 发布于 2025-02-07 13:22 评论(0) 阅读(452)
0

[megatron代码阅读] 2. TP和PP实现

训练并行实现 TensorParallel 张量并行代码路径, 代码路径: megatron/core/tensor_parallel 主要包含Linear / VocabEmbedding / cross_entropy 三部分. Linear 参数初始化 如果是从checkpoint热启, pe ...

SunStriKE 发布于 2025-02-06 20:28 评论(0) 阅读(50)

统计信息

  • 博客 - 795558
  • 随笔 - 11518198
  • 文章 - 972546
  • 评论 - 4154262