微笑sun

2023年8月22日

摘要：一、背景介绍大语言模型 (LLM) 作为功能强大的人工智能助手展现出了巨大的前景，它们擅长完成需要跨领域专业知识的复杂推理任务，包括编程和创意写作等专业领域。它们通过简单直观的聊天界面与人类互动，让大预言模型快速地被推广。大语言模型的模型架构和训练方法相对比较统一，大多数都是在大规模的语料上通阅读全文

posted @ 2023-08-22 09:52 微笑sun 阅读(1921) 评论(0) 推荐(0)

2023年7月14日

大模型入门（七）—— RLHF中的PPO算法理解

摘要：本文主要是结合PPO在大模型中RLHF微调中的应用来理解PPO算法。一、强化学习介绍 1.1、基本要素环境的状态S：t时刻环境的状态$S_{t}$是环境状态集中某一个状态，以RLHF中为例，序列$w1,w2,w3$是当前的状态。个体的动作A：t时刻个体采取的动作$A_{t}$，给定序列$w1, 阅读全文

posted @ 2023-07-14 15:28 微笑sun 阅读(11570) 评论(0) 推荐(0)

2023年5月6日

大模型入门（六）—— RLHF微调大模型

摘要：一、RLHF微调三阶段参考：https://huggingface.co/blog/rlhf 1）使用监督数据微调语言模型，和fine-tuning一致。 2）训练奖励模型奖励模型是输入一个文本序列，模型给出符合人类偏好的奖励数值，这个奖励数值对于后面的强化学习训练非常重要。构建奖励模型的训练数阅读全文

posted @ 2023-05-06 17:56 微笑sun 阅读(9627) 评论(0) 推荐(0)

2023年4月25日

大模型入门（五）—— 基于peft微调ChatGLM模型

摘要： ChatGLM 是基于 General Language Model (GLM) 架构，针对中文问答和对话进行了优化。经过中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术，ChatGLM因为是中文大模型，在中文任务的表现要优于LLaMa，我在一些实体抽取的任务中微调ChatGLM-6B，阅读全文

posted @ 2023-04-25 22:09 微笑sun 阅读(4325) 评论(0) 推荐(0)

大模型入门（四）—— 基于peft 微调 LLaMa模型

摘要： llama-7b模型大小大约27G，本文在单张/两张 16G V100上基于hugging face的peft库实现了llama-7b的微调。 1、模型和数据准备使用的大模型：https://huggingface.co/decapoda-research/llama-7b-hf，已经是float 阅读全文

posted @ 2023-04-25 15:49 微笑sun 阅读(7981) 评论(1) 推荐(1)

2023年4月19日

大模型入门（三）—— 大模型的训练方法

摘要：参考hugging face的文档介绍：https://huggingface.co/docs/transformers/perf_train_gpu_many#naive-model-parallelism-vertical-and-pipeline-parallelism，以下介绍聚焦在pyto 阅读全文

posted @ 2023-04-19 17:30 微笑sun 阅读(7329) 评论(0) 推荐(0)

2023年4月13日

大模型入门（二）—— PEFT

摘要： PEFT（Parameter-Efficient Fine-Tuning）是hugging face开源的一个参数高效微调大模型的工具，里面集成了4中微调大模型的方法，可以通过微调少量参数就达到接近微调全量参数的效果，使得在GPU资源不足的情况下也可以微调大模型。 1）LORA：LOW-RANK A 阅读全文

posted @ 2023-04-13 10:31 微笑sun 阅读(6312) 评论(0) 推荐(0)

2023年4月12日

大模型入门（一）—— LLaMa/Alpaca/Vicuna

摘要： LLaMa模型是Meta开源的大模型，模型参数从7B到65B不等，LLaMa-7B在大多数基准测试上超过了GPT3-173B，而LLaMa-65B和Chinchilla-70B、PaLM-540B相比也极具竞争力。相比于ChatGPT或者GPT4来说，LLaMa可能效果上还有差距，但相比Closed 阅读全文

posted @ 2023-04-12 16:55 微笑sun 阅读(19373) 评论(1) 推荐(0)

2023年4月11日

NLP新范式（Prompt/Instruct）

摘要： NLP的四范式 NLP发展到今天已经进入到了LLM的时代，随着模型越来越大，在zero-shot/few-shot的情形下也表现的越来越好，NLP也进入到了新的研究范式里面。学术界按发展时间线将NLP归纳到四个范式： 1），传统的基础学习范式。 2），基于word2vec，cnn，rnn的全监督深度阅读全文

posted @ 2023-04-11 16:01 微笑sun 阅读(2883) 评论(0) 推荐(1)

搜索query理解简述

摘要： query理解系统通常以Pipline的形式搭建，大致的流程为预处理、分词/词性标注、改写、实体识别、term权重分析、意图识别。从功能上可以划分为query解析、query改写、query意图识别。搜索是一个复杂的系统，用户发起的一次搜索需要经过query理解、doc召回、排序至少三个模块、此外阅读全文

posted @ 2023-04-11 14:31 微笑sun 阅读(2046) 评论(0) 推荐(0)

公告