2025 年 4月 7 日随笔档案 - AI_Engineer

2025年4月7日

摘要：背景前面我们介绍了策略梯度算法，但是其存在两个缺点： 1. 每条采样的数据只能更新模型一次，采样数据的成本高 2. 由于没有对梯度加限制，训练不稳定，容易陷入局部最优下面我们看一下PPO算法是如何解决这两个问题的重要性采样假设我们有一个函数 f(x)，要计算从分布 p 采样 x，再把 x 代阅读全文

posted @ 2025-04-07 19:57 AI_Engineer 阅读(83) 评论(0) 推荐(0)

xd_xumaomao

公告