刷新
小白也能看懂的大模型书籍《GPT图解:大模型是怎样构建的》PDF免费下载

本书通过生动的故事和图解,介绍了自然语言处理技术的核心原理,涵盖N-Gram、Word2Vec、Transformer等技术的演进。书中提供动手实践的机会,帮助读者从零开始构建语言模型,适合AI初学者与从业者阅读。本文提供《GPT图解:大模型是怎样构建的》免费下载,包含pdf、epub格式。 ...

传国玉玺易主,ai.com竟然跳转到国产AI

博主头像 一、震惊!输入ai.com网址竟然见证历史 今天我在地址栏随手敲了个ai.com,结果网页"唰"地一下——居然跳到了国产AI新贵DeepSeek的官网!这感觉就像在胡同口买煎饼,结果老板递给我一块金砖啊 要知道这个ai.com可是全球科技圈的"传国玉玺",从1993年注册至今(整整32年历史! ...

让 LLM 来评判 | 评估你的评估结果

博主头像 评估你的评估结果 这是 让 LLM 来评判 系列文章的第三篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 在生产中或大规模使用 LLM 评估模型之前,你需要先评估它在目标任务的表现效果如何,确保它的评分跟期望的 ...

LangChain基础篇 (05)

博主头像 LangChain 核心模块:Data Conneciton - Document Transformers 一旦加载了文档,通常会希望对其进行转换以更好地适应您的应用程序。 最简单的例子是,您可能希望将长文档拆分为较小的块,以适应模型的上下文窗口。LangChain具有许多内置的文档转换器,可以轻 ...

轻松部署OpenWebUI+DeepSeek API,实现多端互通查询自由

博主头像 引言 DeepSeek模型很强大,但官方目前存在以下几个痛点 不稳定:官方页面、官方API暂时只能提供有限的服务 成本高:满血版671B个人电脑很少能带得动的 本文介绍nas/云服务器 部署OpenWebUI+DeepSeek API,实现多端互通查询自由,主要有以下几个优点 成本低:不用昂贵的硬件 ...

Java工程师如何理解张量?

博主头像 刚接触 AI 和 PyTorch,理解 “张量 (Tensor)” 是入门关键。 简单来说,可将 PyTorch 中的张量 (Tensor) 理解为 Java 中的多维数组,但它比普通的 Java 数组强大得多,尤其在 AI 和深度学习领域。 1 张量(Tensor) VS Java 数组/列表 J ...

Gemini 2.0 现已面向所有人开放

博主头像 以下GOOGLE 原文BLOG翻译 0205发表 去年 12 月,我们通过发布 Gemini 2.0 Flash 的实验版本开启了“代理时代”——这是我们的高效工作模型,专为开发者设计,具有低延迟和增强性能。今年早些时候,我们在 Google AI Studio 中更新了 2.0 Flash Thi ...

DeepSeek-R1论文细节时间线梳理

博主头像 0 前言 2025年1月10日,DeepSeek发布名为R1的大语言模型,该初创公司声称其在推理任务上可与OpenAI的ChatGPT o1媲美。该应用在创纪录的时间内登顶App Store排行榜,不仅吸引科技行业关注,也引发了全球范围内的广泛讨论。其中一个尤引人注目的声明是:该模型训练成本低于60 ...

Huggingface使用

博主头像 目录1. Transformer模型1.1 核心组件1.2 模型结构1.3 Transformer 使用1.3.1 使用 Hugging Face Transformers 库1.3.2 自定义 Transformer 模型1.3.3 Transformer 的 Demo1.3.3.1 安装依赖1. ...

LangChain基础篇 (04)

博主头像 LangChain 核心模块:Data Conneciton - Document Loaders 使用文档加载器从源中加载数据作为文档。一个文档是一段文字和相关的元数据。 如,有用于加载简单 .txt 文件的文档加载器,用于加载 ArXiv 论文,或者任何网页的文本内容 Document 类 这段 ...

免费+数据安全!手把手教你在PC跑DeepSeek-R1大模型,小白也能秒变AI大神!

博主头像 0 为啥本地部署? 在本地运行 AI 模型具有以下优势: 隐私:你的数据保留在你的机器上 — — 不存在共享敏感信息的风险 成本: DeepSeek R1 可免费使用,无需订阅费或使用费 控制:无需外部依赖即可进行微调和实验 1 使用Ollama 1.1 下载并运行应用程序 直达官网: 1.2 选择 ...

[megatron代码阅读] 2. TP和PP实现

博主头像 训练并行实现 TensorParallel 张量并行代码路径, 代码路径: megatron/core/tensor_parallel 主要包含Linear / VocabEmbedding / cross_entropy 三部分. Linear 参数初始化 如果是从checkpoint热启, pe ...

LangChain基础篇 (03)

博主头像 LangChain 核心模块学习:Memory 大多数LLM应用都具有对话界面。对话的一个重要组成部分是能够引用先前在对话中介绍过的信息。至少,一个对话系统应该能够直接访问一些过去消息的窗口。更复杂的系统将需要拥有一个不断更新的世界模型,使其能够保持关于实体及其关系的信息。 我们将存储过去交互信息的 ...

DeepSeek+AnythingLLM打造自己大模型知识库

博主头像 有些用户或是专家在项目建设中提出来要提炼工艺库、模型库、算法库等知识库,可以试着让deepseek成为每个角色的助手,例如工艺的、信息化的、设备的、电气的等角色,让deepseek成为自己,再不断的迭代它。deepseek扮演AI助手的角色,应用越来越发挥出来应有的价值。 ...

DeepSeek-R1真算得上开源吗?

博主头像 1 啥是 DeepSeek-R1? 如你曾为一道棘手数学题绞尽脑汁,就明白多花时间仔细思考多重要。OpenAI o1 模型证明,当 LLM 在推理时,通过增加计算量进行类似训练后,它们在数学、编程和逻辑等推理任务上的表现显著提升。 然而,OpenAI 推理模型的训练方法一直是秘密。直到DeepSee ...

123···23>