摘要: Outline Actor-Critic 优势函数 自然策略梯度 策略梯度算法总结 Actor-Critic 学习价值函数,也学习策略。 使用Critic减少方差: 蒙特卡洛策略梯度具有高方差。 使用critic来评估动作- 价值函数: Actor-critic 算法包含两组参数:Critic 更新 阅读全文
posted @ 2019-05-23 22:15 山竹小果 阅读(760) 评论(0) 推荐(0) 编辑