摘要: 上篇文章 强化学习——时序差分 (TD) SARSA and Q-Learning 我们介绍了时序差分TD算法解决强化学习的评估和控制问题,TD对比MC有很多优势,比如TD有更低方差,可以学习不完整的序列。所以我们可以在策略控制循环中使用TD来代替MC。优于TD算法的诸多优点,因此现在主流的强化学习 阅读全文
posted @ 2020-08-10 15:34 jsfantasy 阅读(2229) 评论(1) 推荐(2) 编辑
摘要: 在上篇文章强化学习——蒙特卡洛 (MC) 采样法的预测与控制中我们讨论了 Model Free 情况下的策略评估问题,主要介绍了蒙特卡洛(MC)采样法的预测与控制问题,这次我们介绍另外一种方法——时序差分法(TD) 一、时序差分采样法(TD) 对于MC采样法,如果我们没有完整的状态序列,那么就无法使 阅读全文
posted @ 2020-08-10 15:32 jsfantasy 阅读(1742) 评论(0) 推荐(1) 编辑
摘要: 一、问题引入 回顾上篇强化学习 2 —— 用动态规划求解 MDP我们使用策略迭代和价值迭代来求解MDP问题 1、策略迭代过程: 1、评估价值 (Evaluate) \[ v_{i}(s) = \sum_{a\in A} \pi(a|s) \left( {\color{red}R(s, a)} + \ 阅读全文
posted @ 2020-08-10 15:29 jsfantasy 阅读(1568) 评论(0) 推荐(2) 编辑
摘要: 在上一篇文章 强化学习 1 —— 一文读懂马尔科夫决策过程 MDP 介绍了马尔科夫过程,本篇接着来介绍如何使用动态规划方法来求解。 动态规划的关键点有两个: 一是问题的最优解可以由若干小问题的最优解构成,即通过寻找子问题的最优解来得到问题的最优解。 二是可以找到子问题状态之间的递推关系,通过较小的子 阅读全文
posted @ 2020-08-10 15:26 jsfantasy 阅读(2256) 评论(0) 推荐(1) 编辑