2023 年 7月 14 日随笔档案 - 微笑sun

2023年7月14日

摘要：本文主要是结合PPO在大模型中RLHF微调中的应用来理解PPO算法。一、强化学习介绍 1.1、基本要素环境的状态S：t时刻环境的状态$S_{t}$是环境状态集中某一个状态，以RLHF中为例，序列$w1,w2,w3$是当前的状态。个体的动作A：t时刻个体采取的动作$A_{t}$，给定序列$w1, 阅读全文

posted @ 2023-07-14 15:28 微笑sun 阅读(6413) 评论(0) 推荐(0) 编辑

微笑sun

公告