2019 年 2月 13 日随笔档案 - paulonetwo

2019年2月13日

机器学习工程师 - Udacity 强化学习 Part Three

摘要：四、动态规划1.在动态规划设置中，智能体完全了解表示环境特性的马尔可夫决策流程 (MDP)。（这比强化学习设置简单多了，在强化学习设置中，智能体一开始不知道环境如何决定状态和奖励，必须完全通过互动学习如何选择动作。） 2.迭代方法求状态值函数迭代方法先对每个状态的值进行初始猜测。尤其是，我们先假设每阅读全文

posted @ 2019-02-13 19:09 paulonetwo 阅读(599) 评论(0) 推荐(0) 编辑

paulonetwo

机器学习工程师 - Udacity 强化学习 Part Three

导航

公告