摘要: 强化学习-学习笔记14 | 策略梯度中的 Baseline 引入 baseline ,可以通过降低随机梯度造成的方差来加速强化学习的收敛,介绍了两种算法Reinforce with baseline 以及 A2C。 阅读全文
posted @ 2022-07-12 11:29 climerecho 阅读(732) 评论(0) 推荐(0) 编辑