随笔分类 -  强化学习

摘要:1. 前言 在前面的章节中我们介绍了时序差分算法(TD)和Q Learning,当状态和动作空间是离散且维数不高时可使用Q Table储存每个状态动作对的Q值,而当状态和动作空间是高维连续时,使用Q Table不动作空间和状态太大十分困难。所以论文Human level control throug 阅读全文
posted @ 2019-09-19 11:08 hyc339408769 阅读(7883) 评论(0) 推荐(0) 编辑
摘要:1. 前言 Q Learning算法也是时序差分算法的一种,和我们前面介绍的SARAS不同的是,SARSA算法遵从了交互序列,根据当前的真实行动进行价值估计;Q Learning算法没有遵循交互序列,而是在当前时刻选择了使价值最大的行动。 2. Q Learning Q Learning算法在计算当 阅读全文
posted @ 2019-03-09 11:28 hyc339408769 阅读(3601) 评论(0) 推荐(0) 编辑
摘要:1. 前言 我们前面介绍了第一个Model Free的模型蒙特卡洛算法。蒙特卡罗法在估计价值时使用了完整序列的长期回报。而且蒙特卡洛法有较大的方差,模型不是很稳定。本节我们介绍时序差分法, 时序差分法不需要完整的序列,并且利用Bellman公式和动态规划进行迭代 。 2. 时序差分和蒙特卡洛比较 前 阅读全文
posted @ 2019-03-09 10:50 hyc339408769 阅读(2937) 评论(1) 推荐(0) 编辑
摘要:1. 前言 从本章起,我们开始解决更贴近实际的问题。前面提到我们接触过的问题有一个特点,即我们可以知道环境运转的细节,具体说就是知道状态转移概率P(st+1|st,at)。对蛇棋来说,我们可以看到蛇棋的棋盘,也就可以了解到整个游戏的全貌,这时我们相当于站在上帝视角,能够看清一切情况。 阅读全文
posted @ 2019-02-17 22:09 hyc339408769 阅读(2208) 评论(0) 推荐(0) 编辑
摘要:1. 前言 上一篇博客我们介绍了 "价值迭代的原理" 。这一节我们实现强化学习里面的价值迭代的部分代码( "完整代码GitHub" )。 2. 价值迭代回顾 我们把注意点放在值函数上,等值函数收敛了,我们的策略也会收敛到最优值。 $$ v^{T+1}(s) =max_{a} \sum_{s_{t+1 阅读全文
posted @ 2019-02-16 19:25 hyc339408769 阅读(2005) 评论(0) 推荐(0) 编辑
摘要:1. 前言 在 "策略迭代" 最后我们发现策略迭代的收敛过程比较慢,那我们就会想有没更好更快的迭代方法,今天我们介绍的价值迭代就是另一种寻找最优策略的解决方案。 2. 动态规划 价值迭代需要用到动态规划的思想,那我们简单的回顾下动态规划的特点。 1. 最优子结构 :是指一个子问题的最优解是可以得到的 阅读全文
posted @ 2019-02-16 09:12 hyc339408769 阅读(3567) 评论(0) 推荐(0) 编辑
摘要:1. 前言 今天要重代码的角度给大家详细介绍下策略迭代的原理和实现方式。 "本节完整代码GitHub" 。 我们开始介绍策略迭代前,先介绍一个蛇棋的游戏 它是我们后面学习的环境,介绍下它的规则: 1. 玩家每人拥有一个棋子,出发点在图中标为“1”的格子处。 2. 依次掷骰子,根据骰子的点数将自己的棋 阅读全文
posted @ 2019-02-15 23:31 hyc339408769 阅读(3673) 评论(0) 推荐(0) 编辑
摘要:1. 前言 在 "强化学习 MDP(马尔可夫决策过程)算法原理" 中我们已经介绍了强化学习中的基石 MDP,本文的任务是介绍如何通过价值函数,去寻找到最优策略,使得最后得到的奖励尽可能的多。 2. 回顾MDP 通过学习MDP我们得到了2个Bellman公式: 状态值函数: $$ v_{\pi}(s_ 阅读全文
posted @ 2019-02-14 22:49 hyc339408769 阅读(5376) 评论(0) 推荐(1) 编辑
摘要:1. 前言 前面的 "强化学习基础知识" 介绍了强化学习中的一些基本元素和整体概念。今天讲解强化学习里面最最基础的MDP(马尔可夫决策过程)。 2. MDP定义 MDP是当前强化学习理论推导的基石,通过这套框架,强化学习的交互流程可以很好地以概率论的形式表示出来,解决强化学习问题的关键定理也可以依此 阅读全文
posted @ 2019-02-13 21:30 hyc339408769 阅读(9934) 评论(3) 推荐(1) 编辑
摘要:1. 前言 在机器学习中,我们比较熟知的是监督式学习,非监督学习,此外还有一个大类就是强化学习。强化学习是机器学习的一个重要分支,是多学科多领域交叉的一个产物,它的本质是解决自动进行决策,并且可以做连续决策。 2. 强化学习定义 它主要包含五个元素,Agent(智能体),Environment(环境 阅读全文
posted @ 2019-02-11 22:30 hyc339408769 阅读(2533) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示