2019年3月12日

机器学习工程师 - Udacity 强化学习 Part Ten

摘要: 九、策略梯度1.为何要使用基于策略的方法原因有三个方面:简单性,随机性策略和连续动作空间。在 Q 学习等基于值的方法中我们发明了值函数这一概念作为查找最优策略的中间步骤,它有助于我们将问题重新描述为更易于理解和学习的形式。但是如果我们的最终目标是查找最优策略,真的需要该值函数吗?可以直接估算最优策略 阅读全文

posted @ 2019-03-12 19:45 paulonetwo 阅读(296) 评论(0) 推荐(0) 编辑

导航