2019 年 3月 13 日随笔档案 - paulonetwo

2019年3月13日

机器学习工程师 - Udacity 强化学习 Part Eleven

摘要：十、行动者-评论者方法 1.行动者-评论者方法我们可以通过两大类别的方法解决强化学习问题。对于蒙特卡罗学习或 Q 学习等基于值的方法，我们会尝试表示每个状态或状态动作对的值，然后，根据任何状态我们可以选择具有最佳值的动作。如果你有数量有限的动作，这种方法很合适。另一方面，基于策略的方法会对从状态到动阅读全文

posted @ 2019-03-13 20:47 paulonetwo 阅读(256) 评论(0) 推荐(0) 编辑

paulonetwo

机器学习工程师 - Udacity 强化学习 Part Eleven

导航

公告