会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
微笑sun
博客园
首页
新随笔
联系
订阅
管理
2023年7月14日
大模型入门(七)—— RLHF中的PPO算法理解
摘要: 本文主要是结合PPO在大模型中RLHF微调中的应用来理解PPO算法。 一、强化学习介绍 1.1、基本要素 环境的状态S:t时刻环境的状态$S_{t}$是环境状态集中某一个状态,以RLHF中为例,序列$w1,w2,w3$是当前的状态。 个体的动作A:t时刻个体采取的动作$A_{t}$,给定序列$w1,
阅读全文
posted @ 2023-07-14 15:28 微笑sun
阅读(5921)
评论(0)
推荐(0)
编辑
公告