2019年2月13日

机器学习工程师 - Udacity 强化学习 Part Three

摘要: 四、动态规划1.在动态规划设置中,智能体完全了解表示环境特性的马尔可夫决策流程 (MDP)。(这比强化学习设置简单多了,在强化学习设置中,智能体一开始不知道环境如何决定状态和奖励,必须完全通过互动学习如何选择动作。) 2.迭代方法求状态值函数迭代方法先对每个状态的值进行初始猜测。尤其是,我们先假设每 阅读全文

posted @ 2019-02-13 19:09 paulonetwo 阅读(599) 评论(0) 推荐(0) 编辑

导航