强化学习理论-第5课-蒙特卡洛方法

之前的章节都是基于model base,这节是model free的方法。

1. model-base to model-free:


2. 计算qπk:

3. MC base algorithm:


step 1和model base是不一样的,后面的步骤是一样的。

4. MC exploring starts算法:


提出visit概念,MC Basic的算法只考虑第一个visit,对数据的使用是浪费的。

4.1 update the policy:

第一种方案是收集到所有的episodes,然后再计算;另一种是获得一个episode,计算近似值,改进策略

4.2 MC exploring starts:

在实际当中,获取所有的(s,a)是比较困难的,所以有下面的改进策略。

5. MC Epsilon-Greedy:

A policy is called soft if the probability to take any action is positive.



posted @   penuel  阅读(38)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
历史上的今天:
2019-11-18 数学之美-泰勒公式
点击右上角即可分享
微信分享提示