2019年2月27日

机器学习工程师 - Udacity 强化学习 Part Seven

摘要: 七、连续空间中的强化学习 1.复习强化学习强化学习问题通常都会转化为马尔可夫决策流程,简称 MDP。一个 MDP 由一组状态 S 动作 A 概率 P 奖励 R 和折扣因子 γ 组成。P 表示不同转换和奖励的发生频率,通常建模为单个联合概率。任何时间步 t+1 的状态和奖励仅依赖于在上个时间步 t 的 阅读全文

posted @ 2019-02-27 20:59 paulonetwo 阅读(350) 评论(0) 推荐(0) 编辑

机器学习工程师 - Udacity 强化学习 Part Six

摘要: 项目:强化学习走迷宫 我们将会应用 Q-learning 算法完成一个经典的 Markov 决策问题 -- 走迷宫! 请查看项目详情 https://github.com/udacity/MLND_CN_P5_Reinforcement_Learning Section 0 问题描述与完成项目流程 阅读全文

posted @ 2019-02-27 19:36 paulonetwo 阅读(1392) 评论(0) 推荐(0) 编辑

导航