强化学习理论-第5课-蒙特卡洛方法
之前的章节都是基于model base,这节是model free的方法。
1. model-base to model-free:
2. 计算
3. MC base algorithm:
step 1和model base是不一样的,后面的步骤是一样的。
4. MC exploring starts算法:
提出visit概念,MC Basic的算法只考虑第一个visit,对数据的使用是浪费的。
4.1 update the policy:
第一种方案是收集到所有的episodes,然后再计算;另一种是获得一个episode,计算近似值,改进策略
4.2 MC exploring starts:
在实际当中,获取所有的(s,a)是比较困难的,所以有下面的改进策略。
5. MC Epsilon-Greedy:
A policy is called soft if the probability to take any action is positive.
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
2019-11-18 数学之美-泰勒公式