摘要: 策略算法(如TRPO,PPO)是一种流行的on policy方法。它可以提供无偏差的(或近似无偏差)梯度估计,但同时会导致高的方差。而像Q learning 和离线的actor critic(如DDPG)等off policy方法则可以用离线的样本来替代。它们可以使用其他学习过程产生的样本。这样的方 阅读全文
posted @ 2020-01-11 16:45 LIN_KID 阅读(715) 评论(0) 推荐(0) 编辑