2020 年 8月 10 日随笔档案 - jsfantasy

2020年8月10日

摘要：上篇文章强化学习——时序差分 (TD) SARSA and Q-Learning 我们介绍了时序差分TD算法解决强化学习的评估和控制问题，TD对比MC有很多优势，比如TD有更低方差，可以学习不完整的序列。所以我们可以在策略控制循环中使用TD来代替MC。优于TD算法的诸多优点，因此现在主流的强化学习阅读全文

posted @ 2020-08-10 15:34 jsfantasy 阅读(2652) 评论(1) 推荐(2)

强化学习 4 —— 时序差分法（TD）解决无模型预测与控制问题

摘要：在上篇文章强化学习——蒙特卡洛 (MC) 采样法的预测与控制中我们讨论了 Model Free 情况下的策略评估问题，主要介绍了蒙特卡洛（MC）采样法的预测与控制问题，这次我们介绍另外一种方法——时序差分法（TD）一、时序差分采样法（TD）对于MC采样法，如果我们没有完整的状态序列，那么就无法使阅读全文

posted @ 2020-08-10 15:32 jsfantasy 阅读(2152) 评论(0) 推荐(1)

强化学习 3—— 使用蒙特卡洛采样法（MC）解决无模型预测与控制问题

摘要：一、问题引入回顾上篇强化学习 2 —— 用动态规划求解 MDP我们使用策略迭代和价值迭代来求解MDP问题 1、策略迭代过程： 1、评估价值 (Evaluate) \[ v_{i}(s) = \sum_{a\in A} \pi(a|s) \left( {\color{red}R(s, a)} + \ 阅读全文

posted @ 2020-08-10 15:29 jsfantasy 阅读(1996) 评论(0) 推荐(2)

强化学习 2—— 用动态规划求解 MDP (Policy Iteration and Value Iteration)

摘要：在上一篇文章强化学习 1 —— 一文读懂马尔科夫决策过程 MDP 介绍了马尔科夫过程，本篇接着来介绍如何使用动态规划方法来求解。动态规划的关键点有两个：一是问题的最优解可以由若干小问题的最优解构成，即通过寻找子问题的最优解来得到问题的最优解。二是可以找到子问题状态之间的递推关系，通过较小的子阅读全文

posted @ 2020-08-10 15:26 jsfantasy 阅读(2854) 评论(0) 推荐(1)

jsfantasy

公告