RLHF与大语言LLM模型 - 随笔分类 - jasonzhangxianrong

PPO_trainer

摘要：# Copyright (c) Microsoft Corporation. # SPDX-License-Identifier: Apache-2.0 # DeepSpeed Team import torch import torch.nn.functional as F import time 阅读全文

posted @ 2025-01-21 18:18 jasonzhangxianrong 阅读(17) 评论(0) 推荐(0) 编辑

共识

摘要：IV. 网络动态根据协议(A1)，一组连续时间积分器代理的网络状态按照以下线性系统演化： \[\dot{x}(t)=-L x(t)\qquad(8) \]其中，L 被称为由信息流 G 引发的图拉普拉斯矩阵，其定义为 \[l_{i j}=\left\{\begin{array}{ll}\sum_{k 阅读全文

posted @ 2024-09-07 22:44 jasonzhangxianrong 阅读(28) 评论(0) 推荐(0) 编辑

修改模型的embedding

摘要：Huggingface | 修改模型的embedding 目标：在NLP领域，基于公开语料的预训练模型，在专业领域迁移时，会遇到专业领域词汇不在词汇表的问题，本文介绍如何添加专有名词到预训练模型。 NLP的处理流程：对输入的句子进行分词，得到词语及下标通过embedding层获得词语对应的em 阅读全文

posted @ 2024-08-21 17:00 jasonzhangxianrong 阅读(138) 评论(0) 推荐(0) 编辑

（六）大模型RLHF：PPO原理与源码解读

摘要：大模型RLHF：PPO原理与源码解读原文链接：图解大模型RLHF系列之：人人都能看懂的PPO原理与源码解读本文直接从一个RLHF开源项目源码入手（deepspeed-chat），根据源码的实现细节，给出尽可能丰富的训练流程图，并对所有的公式给出直观的解释。希望可以帮助大家更具象地感受RLHF的训阅读全文

posted @ 2024-06-30 22:39 jasonzhangxianrong 阅读(4147) 评论(0) 推荐(0) 编辑

（五）DeepSpeed Chat: 一键式RLHF训练，让你的类ChatGPT千亿大模型提速省钱15倍

摘要：DeepSpeed Chat: 一键式RLHF训练，让你的类ChatGPT千亿大模型提速省钱15倍如需引用 DeepSpeed Chat，请引用我们的arxiv report: @article{yao2023dschat, title={{DeepSpeed-Chat: Easy, Fast a 阅读全文

posted @ 2024-06-30 17:46 jasonzhangxianrong 阅读(212) 评论(0) 推荐(0) 编辑

（四）详解RLHF

摘要：一直都特别好奇大模型的强化学习微调是怎么做的，网上虽然相关文章不少，但找到的文章都是浅尝辄止说到用PPO训练，再细致深入的就没有讲了。。。只能自己看一看代码，以前搞过一点用PPO做游戏，感觉和语言模型PPO的用法不太一样。在游戏场景，每个step给环境一个action之后，agent拿到的state 阅读全文

posted @ 2024-06-27 23:08 jasonzhangxianrong 阅读(970) 评论(0) 推荐(0) 编辑

（三）使用 PPO 算法进行 RLHF 的 N 步实现细节

摘要：title: "使用 PPO 算法进行 RLHF 的 N 步实现细节" thumbnail: /blog/assets/167_the_n_implementation_details_of_rlhf_with_ppo/thumbnail.png authors: - user: vwxyzjn - 阅读全文

posted @ 2024-06-27 22:46 jasonzhangxianrong 阅读(256) 评论(0) 推荐(0) 编辑

（二）将强化学习重新引入 RLHF

摘要：title: "将强化学习重新引入 RLHF" thumbnail: /blog/assets/putting_rl_back_in_rlhf_with_rloo/thumbnail.png authors: - user: vwxyzjn - user: ArashAhmadian org: Co 阅读全文

posted @ 2024-06-27 22:30 jasonzhangxianrong 阅读(170) 评论(0) 推荐(0) 编辑

（一）"ChatGPT 背后的“功臣”——RLHF 技术详解"

摘要：title: "ChatGPT 背后的“功臣”——RLHF 技术详解" thumbnail: /blog/assets/120_rlhf/thumbnail.png authors: - user: natolambert - user: LouisCastricato guest: true - 阅读全文

posted @ 2024-06-27 22:25 jasonzhangxianrong 阅读(226) 评论(0) 推荐(0) 编辑

随笔分类 - RLHF与大语言LLM模型

公告