大模型 - 第11页 - 网站分类

最近大模型发展迅速，与之对应的向量化需求也被带动起来了，由此社区也衍生出很多模型，本文选几款，简单做下评测。 ...

原作：邓肯·安德森引言：以下文章的主题我已经思考了很久，我希望能我的话能引起你的思考，并于一些更悲观的AI评论相均衡。推理和可解释性是充满细微差别的主题——我希望这篇文章能体现这一点。去年 GPT-4 发布时，我注意到出现了一个特殊的议论：“可解释的人工智能”。 GPT-4 是第一个在推理领域 ...

RAPTOR：递归摘要与树形检索的结合，提升RAG检索性能

RAPTOR：递归摘要与树形检索的结合，提升RAG检索性能来源：ICLR'24 https://arxiv.org/pdf/2401.18059.pdf 随着 LLM 技术的发展，RAG 的价值也来越明显，可以视作 LLM 应用、落地的一个主要方向。RAG通过结合检索系统和生成模型，在生成回答时先 ...

句子嵌入: 交叉编码和重排序

这个系列目的是揭开嵌入的神秘面纱，并展示如何在你的项目中使用它们。第一篇博客介绍了如何使用和扩展开源嵌入模型，选择现有的模型，当前的评价方法，以及生态系统的发展状态。第二篇博客将会更一步深入嵌入并解释双向编码和交叉编码的区别。进一步我们将了解检索和重排序的理论。我们会构建一个工具，它可以来回答 ...

ChatGPT 背后的“功臣”——RLHF 技术详解以强化学习方式依据人类反馈优化语言模型

OpenAI 推出的 ChatGPT 对话模型掀起了新的 AI 热潮，它面对多种多样的问题对答如流，似乎已经打破了机器和人的边界。这一工作的背后是大型语言模型 (Large Language Model，LLM) 生成领域的新训练范式：RLHF (Reinforcement Learning fro ...

4个大语言模型训练中的典型开源数据集

本文分享自华为云社区《浅谈如何处理大语言模型训练数据之三开源数据集介绍》，作者：码上开花_Lancer。随着最近这些年来基于统计机器学习的自然语言处理的算法的发展，以及信息检索研究的需求，特别是近年来深度学习和预训练语言模型的研究以及国内国外许多大模型的开源，研究人员们构建了多种大规模开源数据集 ...

Pytorch分布式训练，其他GPU进程占用GPU0的原因

问题最近跑师兄21年的论文代码，代码里使用了Pytorch分布式训练，在单机8卡的情况下，运行代码，出现如下问题。也就是说GPU(1..7)上的进程占用了GPU0，这导致GPU0占的显存太多，以至于我的batchsize不能和原论文保持一致。解决方法我一点一点进行debug。首先，在数据加 ...

大模型应用开发：为产品创建一个AI客服/智能助手

本文将继续展示AI助手的开发方式，在OpenAPI中它的名字是Assistants。Assistants的主要作用是强化大模型在某方面的应用能力，比如目前已经大范围使用的AI客服和知识库助手，它们可以准确的理解用户的问题，并在限定的知识范围内进行精准回答。另外借助Assistants的能力，我们还可... ...

三个方面浅析数据对大语言模型的影响

本文分享自华为云社区《浅谈如何处理大语言模型训练数据之二数据影响分析》，作者：码上开花_Lancer。由于大语言模型的训练需要巨大的计算资源，通常不可能多次迭代大语言模型预训练。千亿级参数量的大语言模型每次预训练的计算需要花费数百万元人民币。因此，在训练大语言模型之前，构建一个准备充分的预训练语料 ...

.Net接入AzureOpenAI、OpenAI、通义千问、智谱AI、讯飞星火、文心一言大语言模型。

前言现在在网上搜索.NET接入大模型的帖子很少，有些官方案例只提供java和python的SDK，所以有了这篇.Net的接入大模型文章，目前仅实现对话模型的调用。这里仅举例通义千问，其他模型实现可以参考Gi他Hub 对您有帮助的话帮忙点个star 个人博客：FaceMan' Blog 。 Git ...

【译】大型语言模型的直观解释

原作：史蒂夫·纽曼引子：我没有深入研究数学，而是解释了“为什么”它们被构建为“预测下一个单词”引擎，并提出了为什么它们会出现概念性错误的理论。有很多文章解释了 ChatGPT 等大型语言模型 (LLMs) 的工作原理。然而，他们往往会深入研究那些与大多数用户无关的细枝末叶。了解“token em ...

【译】ChatGPT 知道自己不知道

原作：史蒂夫·纽曼引子：它是一只随机鹦鹉，但大多数时候你也是如此，而且它记住的东西比你多得多关于ChatGPT已经有无数的笔墨了。然而，大部分关注点要么是非常短期和战术性的（“从 ChatGPT 获得出色营销文案的八个魔法提示”），要么是非常长期和理论性的。我将重点关注中间立场，超越我们今天的水 ...

大模型应用开发：编写插件获取实时天气信息

欢迎阅读本系列文章！我将带你一起探索如何利用OpenAI API开发GPT应用。无论你是编程新手还是资深开发者，都能在这里获得灵感和收获。本文，我们将继续展示聊天API中插件的使用方法，让你能够轻松驾驭这个强大的工具。 ...

什么是ChatGPT，什么是大模型prompt

`ChatGPT`是一个由美国的`OpenAI`公司开发的聊天机器人，它使用了大型语言模型，现在有GPT-3、GPT-3.5、GPT-4.0多个版本，目前还在快速发展，通过监督学习和强化学习进行了微调。它可以根据用户的提示执行各种语言任务，例如回答问题、编写或调试代码、创作音乐和文本等。目前`C... ...

大模型应用开发：运行你的第一个聊天程序

本系列文章介绍基于OpenAI GPT API开发大模型应用的方法，适合从零开始，也适合查缺补漏。这篇文章首先介绍基于聊天API编程的方法 ...

开放 LLM 排行榜: 深入研究 DROP

最近，开放 LLM 排行榜迎来了 3 个新成员: Winogrande、GSM8k 以及 DROP，它们都使用了 EleutherAI Harness 的原始实现。一眼望去，我们就会发现 DROP 的分数有点古怪: 绝大多数模型的 F1 分数都低于 10 分 (满分 100 分)！我们对此进行了深 ...

使用腾讯AIDesign的设计LOGO

腾讯AIDesign免费开放全部功能，支持logo的智能设计、调优、VI生成、下载。推广期间，每个用户每日可免费下载10款logo及其衍生品，可下载内容包括：高清无水印的彩色logo图片、标准墨稿、标准反色稿、名片设计稿。我们抱着试试，输入chinacreator字符，生成一些LOGO试试，最终生 ...

开发篇1：使用原生api和Langchain调用大模型

对大模型的调用通常有以下几种方式：方式一、大模型厂商都会定义http风格的请求接口，在代码中可以直接发起http请求调用；方式二、在开发环境中使用大模型厂商提供的api；方式三、使用开发框架Langchain调用，这个就像java对数据库的调用一样，可以直接用jdbc也可以使用第三方框架，第三方框架 ...

聊聊ChatGLM-6B源码分析(二)

基于ChatGLM-6B第一版，要注意还有ChatGLM2-6B以及ChatGLM3-6B 转载请备注出处：https://www.cnblogs.com/zhiyong-ITNote/ ChatGLMPreTrainedModel 官方的描述是处理权重初始化的抽象类，以及下载和加载预训练模型的接 ...

聊聊ChatGLM中P-tuning v2的应用

论文PDF地址：https://arxiv.org/pdf/2110.07602.pdf 转载请备注出处：https://www.cnblogs.com/zhiyong-ITNote/ P-Tuning v2 摘录自第三部分桔色块指代可训练的prompt embedding；蓝色块是由固定(冻结) ...