2019 年 2月 27 日随笔档案 - paulonetwo

2019年2月27日

机器学习工程师 - Udacity 强化学习 Part Seven

摘要：七、连续空间中的强化学习 1.复习强化学习强化学习问题通常都会转化为马尔可夫决策流程，简称 MDP。一个 MDP 由一组状态 S 动作 A 概率 P 奖励 R 和折扣因子 γ 组成。P 表示不同转换和奖励的发生频率，通常建模为单个联合概率。任何时间步 t+1 的状态和奖励仅依赖于在上个时间步 t 的阅读全文

posted @ 2019-02-27 20:59 paulonetwo 阅读(369) 评论(0) 推荐(0) 编辑

机器学习工程师 - Udacity 强化学习 Part Six

摘要：项目：强化学习走迷宫我们将会应用 Q-learning 算法完成一个经典的 Markov 决策问题 -- 走迷宫！请查看项目详情 https://github.com/udacity/MLND_CN_P5_Reinforcement_Learning Section 0 问题描述与完成项目流程阅读全文

posted @ 2019-02-27 19:36 paulonetwo 阅读(1405) 评论(0) 推荐(0) 编辑

paulonetwo

机器学习工程师 - Udacity 强化学习 Part Seven

机器学习工程师 - Udacity 强化学习 Part Six

导航

公告