大模型 - 第12页 - 网站分类

基于LangChain的LLM应用开发3——记忆

此情可待成追忆，只是当时已惘然。我们人类会有很多或美好或痛苦的回忆，有的回忆会渐渐模糊，有的回忆午夜梦醒，会浮上心头。然而现在的大语言模型都是没有记忆的，都是无状态的，大语言模型自身不会记住和你对话之间的历史消息。根本用不着“时时勤拂拭”，天然就是“本来无一物”。每一次的请求交互、api调用都是独 ...

Java对接科大讯飞星火大模型V2.0实战

Java对接讯飞认知大模型教程，先注册账号领取免费测试额度获取个人免费额度个人免费购买星火认知大模型V2.0 获取秘钥平台地址：讯飞开放平台 pom.xml 文件 <dependencies> <dependency> <groupId>org.springframework.boot< ...

解密Prompt系列17. LLM对齐方案再升级 WizardLM & BackTranslation & SELF-ALIGN

这一章介绍通过扩写，改写，以及回译等半监督样本挖掘方案对种子样本进行扩充，提高种子指令样本的多样性和复杂度，这里我们分别介绍Microsoft，Meta和IBM提出的三个方案。 ...

Mind2Web: Towards a Generalist Agent for the Web 论文解读

We introduce MIND2WEB, the first dataset for developing and evaluating generalist agents for the web that can follow language instructions to complete... ...

筑牢国云智算底座，繁荣大模型创新生态！

9月27日，以“国云筑基智算引擎——人工智能大模型推动贵州数字经济新跨越”为主题的天翼云中国行·贵州站活动顺利召开。会上举行了天翼云算力创新服务及天翼云政务大模型“慧泽”发布暨中国电信天翼云大模型训练中心揭牌、人工智能大模型应用推广行动启动仪式。天翼云科技有限公司党委书记、董事长、总经理胡志强出... ...

报错AttributeError: Attempted to set WANDB to False, but CfgNode is immutable

问题今天在跑代码的时候，使用到了wandb记录训练数据。我在23服务器上跑的好好的，但将环境迁移到80服务器上重新开始跑时，却遇到了如下报错看这个报错信息是由于wandb没有apis这个属性，于是我定位到具体的报错代码原来程序在import wandb时就抛出异常了。解决方法我尝试验 ...

解密Prompt系列16. LLM对齐经验之数据越少越好？LTD & LIMA & AlpaGasus

总结下指令微调、对齐样本筛选相关的方案包括LIMA，LTD等。论文都是以优化指令样本为核心，提出对齐阶段的数据质量优于数量，少量+多样+高质量的对齐数据，就能让你快速拥有效果杠杠的模型 ...

使用Triton部署chatglm2-6b模型

一、技术介绍 NVIDIA Triton Inference Server是一个针对CPU和GPU进行优化的云端和推理的解决方案。支持的模型类型包括TensorRT、TensorFlow、PyTorch(meta-llama/Llama-2-7b)、Python(chatglm)、ONNX Run ...

模型参数以及内存的计算方法

前言本篇笔记是分析transformer模型的参数量、计算量、中间激活、KV cache - 知乎 (zhihu.com)的学习记录。大部分内容都是来自那篇文字。符号表本文的示例模型是decoder-only模型，即若干个相同的层，有的人称之为block，每个block包含：self-atte ...

Transformer详解

前言在17年，自然语言处理领域还在被RNN统治，当时的seq2seq任务还是用带encoder-decoder结构的RNN。然而RNN天然具有一个缺点：计算效率低。随后的transformer也是encoder-decoder结构，但是其中信息关联采用了attention机制，而不是RNN的循环 ...

如何高效使用ChatGPT(上）开胃菜

#1 ChatGPT能做什么？ - 产生潜在客户 ChatGPT可以帮助您实现个性化沟通，减少在各种情况下创建和使用电子邮件模板的过程，让您接触到更多潜在客户，增加转化机会。 - 提高在线知名度 ChatGPT可以即时格式化您的内容，以便进行搜索引擎优化，让您以最小的投入创建有效的电子邮件和社交营销 ...

利用 device_map、torch.dtype、bitsandbytes 压缩模型参数控制使用设备

为了更好的阅读体验，请点击这里 device_map 以下内容参考 Huggingface Accelerate文档：超大模型推理方法在 HuggingFace 中有个重要的关键字是 device_map，它可以简单控制模型层部署在哪些硬件上。设置参数 device_map="auto"，Acc ...

chatglm2-6b在P40上做LORA微调

目前，大模型的技术应用已经遍地开花。最快的应用方式无非是利用自有垂直领域的数据进行模型微调。chatglm2-6b在国内开源的大模型上，效果比较突出。本文章分享的内容是用chatglm2-6b模型在集团EA的P40机器上进行垂直领域的LORA微调。 ...

揭秘ChatGPT，如何打造自己的自定义指令

在大语言模型的训练中，经常会看到 Instruct Tuning（指令微调）这个单词，GPT家族中也有一个 InstructGPT的模型（指令微调后的GPT），通过指令微调的LLM会更按照我们期望的方式输出 ...

聊聊HuggingFace Transformer

## 概述参见：[聊聊HuggingFace](https://www.cnblogs.com/zhiyong-ITNote/p/17640835.html) ## 项目组件一个完整的transformer模型主要包含三部分：Config、Tokenizer、Model。 ### Config ...

报错ValueError: Can't find 'adapter_config.json'

# 前言在做组内2030项目时，我具体做的一个工作是对大模型进行LoRA微调，在整个过程中有许多坑，其中有些值得记录的问题，于是便产生了这篇博客。 # 问题我在得到微调好的模型后，需要对模型进行性能测评。在加载模型时，遇到如下报错 ``` ValueError: Can't find 'adap ...

强化学习 Proximal Policy Optimization (PPO)

参考: [李宏毅老师课件](https://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2018/Lecture/PPO%20(v3).pdf) PPO: Default reinforcement learning algorithm at OpenAI P ...

【开源免费】ChatGPT-Java版SDK重磅更新收获2.3k，支持插件模式、实现ChatGpt联网操作。

**everybody 七夕来了还单着么？** # 一、简介 ChatGPT Java版SDK开源地址：[https://github.com/Grt1228/chatgpt-java](https://github.com/Grt1228/chatgpt-java)，目前收获将近2200+个sta ...

当 GPT-4 拥有了 Diff 视图，那真的是如虎添翼！

[TOC] ## 1. 当你要求 GPT-4 帮你写点代码时如下图所示，我希望 GPT-4 给我的项目 GoPool 添加一个小功能： ![](https://img2023.cnblogs.com/blog/998740/202308/998740-20230817162002137-45727 ...

解密Prompt系列13. LLM Agent-指令微调方案: Toolformer & Gorilla

本章介绍基于模型微调，支持任意多工具组合调用，复杂工具调用的方案。工具调用的核心是3个问题：在哪个位置使用工具，使用什么工具，如何生成调用语句 - Gorilla & Toolformer ...