2020 年 1月 11 日随笔档案 - LIN_KID

2020年1月11日

摘要：策略算法(如TRPO,PPO)是一种流行的on policy方法。它可以提供无偏差的（或近似无偏差）梯度估计，但同时会导致高的方差。而像Q learning 和离线的actor critic(如DDPG)等off policy方法则可以用离线的样本来替代。它们可以使用其他学习过程产生的样本。这样的方阅读全文

posted @ 2020-01-11 16:45 LIN_KID 阅读(865) 评论(0) 推荐(0) 编辑

LIN_KID

公告