2019年3月13日

机器学习工程师 - Udacity 强化学习 Part Eleven

摘要: 十、行动者-评论者方法 1.行动者-评论者方法我们可以通过两大类别的方法解决强化学习问题。对于蒙特卡罗学习或 Q 学习等基于值的方法,我们会尝试表示每个状态或状态动作对的值,然后,根据任何状态我们可以选择具有最佳值的动作。如果你有数量有限的动作,这种方法很合适。另一方面,基于策略的方法会对从状态到动 阅读全文

posted @ 2019-03-13 20:47 paulonetwo 阅读(256) 评论(0) 推荐(0) 编辑

导航