摘要: 背景 前面我们介绍了策略梯度算法,但是其存在两个缺点: 1. 每条采样的数据只能更新模型一次,采样数据的成本高 2. 由于没有对梯度加限制,训练不稳定,容易陷入局部最优 下面我们看一下PPO算法是如何解决这两个问题的 重要性采样 假设我们有一个函数 f(x),要计算从分布 p 采样 x,再把 x 代 阅读全文
posted @ 2025-04-07 19:57 AI_Engineer 阅读(83) 评论(0) 推荐(0)