刷新
【译】关于推理、可解释性和 LLMs

博主头像 原作: 邓肯·安德森 引言:以下文章的主题我已经思考了很久,我希望能我的话能引起你的思考,并于一些更悲观的AI评论相均衡。推理和可解释性是充满细微差别的主题——我希望这篇文章能体现这一点。 去年 GPT-4 发布时,我注意到出现了一个特殊的议论:“可解释的人工智能”。 GPT-4 是第一个在推理领域 ...

句子嵌入: 交叉编码和重排序

博主头像 这个系列目的是揭开嵌入的神秘面纱,并展示如何在你的项目中使用它们。第一篇博客 介绍了如何使用和扩展开源嵌入模型,选择现有的模型,当前的评价方法,以及生态系统的发展状态。第二篇博客将会更一步深入嵌入并解释双向编码和交叉编码的区别。进一步我们将了解 检索和重排序 的理论。我们会构建一个工具,它可以来回答 ...

4个大语言模型训练中的典型开源数据集

博主头像 本文分享自华为云社区《浅谈如何处理大语言模型训练数据之三开源数据集介绍》,作者: 码上开花_Lancer。 随着最近这些年来基于统计机器学习的自然语言处理的算法的发展,以及信息检索研究的需求,特别是近年来深度学习和预训练语言模型的研究以及国内国外许多大模型的开源,研究人员们构建了多种大规模开源数据集 ...

Pytorch分布式训练,其他GPU进程占用GPU0的原因

博主头像 问题 最近跑师兄21年的论文代码,代码里使用了Pytorch分布式训练,在单机8卡的情况下,运行代码,出现如下问题。 也就是说GPU(1..7)上的进程占用了GPU0,这导致GPU0占的显存太多,以至于我的batchsize不能和原论文保持一致。 解决方法 我一点一点进行debug。 首先,在数据加 ...

大模型应用开发:为产品创建一个AI客服/智能助手

博主头像 本文将继续展示AI助手的开发方式,在OpenAPI中它的名字是Assistants。Assistants的主要作用是强化大模型在某方面的应用能力,比如目前已经大范围使用的AI客服和知识库助手,它们可以准确的理解用户的问题,并在限定的知识范围内进行精准回答。另外借助Assistants的能力,我们还可... ...

三个方面浅析数据对大语言模型的影响

博主头像 本文分享自华为云社区《浅谈如何处理大语言模型训练数据之二数据影响分析》,作者:码上开花_Lancer。 由于大语言模型的训练需要巨大的计算资源,通常不可能多次迭代大语言模型预训练。千亿级参数量的大语言模型每次预训练的计算需要花费数百万元人民币。因此,在训练大语言模型之前,构建一个准备充分的预训练语料 ...

【译】大型语言模型的直观解释

博主头像 原作:史蒂夫·纽曼 引子:我没有深入研究数学,而是解释了“为什么”它们被构建为“预测下一个单词”引擎,并提出了为什么它们会出现概念性错误的理论。 有很多文章解释了 ChatGPT 等大型语言模型 (LLMs) 的工作原理。然而,他们往往会深入研究那些与大多数用户无关的细枝末叶。了解“token em ...

【译】ChatGPT 知道自己不知道

博主头像 原作:史蒂夫·纽曼 引子:它是一只随机鹦鹉,但大多数时候你也是如此,而且它记住的东西比你多得多 关于ChatGPT已经有无数的笔墨了。然而,大部分关注点要么是非常短期和战术性的(“从 ChatGPT 获得出色营销文案的八个魔法提示”),要么是非常长期和理论性的。我将重点关注中间立场,超越我们今天的水 ...

什么是ChatGPT,什么是大模型prompt

博主头像 `ChatGPT`是一个由美国的`OpenAI`公司开发的聊天机器人,它使用了大型语言模型,现在有GPT-3、GPT-3.5、GPT-4.0多个版本,目前还在快速发展,通过监督学习和强化学习进行了微调。它可以根据用户的提示执行各种语言任务,例如回答问题、编写或调试代码、创作音乐和文本等。 目前`C... ...

开放 LLM 排行榜: 深入研究 DROP

博主头像 最近,开放 LLM 排行榜 迎来了 3 个新成员: Winogrande、GSM8k 以及 DROP,它们都使用了 EleutherAI Harness 的原始实现。一眼望去,我们就会发现 DROP 的分数有点古怪: 绝大多数模型的 F1 分数都低于 10 分 (满分 100 分)!我们对此进行了深 ...

使用腾讯AIDesign的设计LOGO

博主头像 腾讯AIDesign免费开放全部功能,支持logo的智能设计、调优、VI生成、下载。推广期间,每个用户每日可免费下载10款logo及其衍生品,可下载内容包括:高清无水印的彩色logo图片、标准墨稿、标准反色稿、名片设计稿。 我们抱着试试,输入chinacreator字符,生成一些LOGO试试,最终生 ...

开发篇1:使用原生api和Langchain调用大模型

博主头像 对大模型的调用通常有以下几种方式:方式一、大模型厂商都会定义http风格的请求接口,在代码中可以直接发起http请求调用;方式二、在开发环境中使用大模型厂商提供的api;方式三、使用开发框架Langchain调用,这个就像java对数据库的调用一样,可以直接用jdbc也可以使用第三方框架,第三方框架 ...

聊聊ChatGLM-6B源码分析(二)

博主头像 基于ChatGLM-6B第一版,要注意还有ChatGLM2-6B以及ChatGLM3-6B 转载请备注出处:https://www.cnblogs.com/zhiyong-ITNote/ ChatGLMPreTrainedModel 官方的描述是 处理权重初始化的抽象类,以及下载和加载预训练模型的接 ...

聊聊ChatGLM中P-tuning v2的应用

博主头像 论文PDF地址:https://arxiv.org/pdf/2110.07602.pdf 转载请备注出处:https://www.cnblogs.com/zhiyong-ITNote/ P-Tuning v2 摘录自第三部分 桔色块指代可训练的prompt embedding;蓝色块是由固定(冻结) ...

TypeChat、JSONSchemaChat实战 - 让ChatGPT更听你的话

博主头像 TypeChat 用一句话概括,就是用了它你可以让大语言模型(比如 ChatGPT)将自然语言转换成特定类型的 JSON 数据。 我们在使用 ChatGPT 的时候,大致流程如下: 假如我们需要 ChatGPT 按照我们输入的 prompt,输出指定格式的 JSON 数据,我们在 prompt 里将 ...

<1···181920>