值迭代与策略迭代（有模型）

先说一下我初始理解，就是图片上面有三部曲，然后他是一个有模型的算法，然后假如说我让他训练100次就是，用python来表达就是 for episode in (100),这个就是最外面的那一层循环，然后每次episode，就是上面三部曲，但是第一步初始化环境是会根据上一个episode来变化的，从第一个episode开始讲，就是比如你vs全部都给你设成0，然后你王子每走一步，就会得到一个-1的reward，然后你得找到一个V'最大的点走过去，那个点的V‘其实是0，所以你目前的本状态的vs就得到了就是-1，然后你就写下孙悟空到此一游，把-1标上去，就类似于到此一游吧，然后你给本状态的v写好了之后，再跑去下一个状态，按照上面的方法一直走下去，可以理解成，你 for episode in (100)里面套着一个while循环，最终到达终点，然后此时此刻，你这个while循环走完之后捏，然后你会进入下一个episode，你会得到一张写满了“到此一游”（就是各个格子V值）的一张地图（来自上一个episode的while循环），让模型把它吃下去，重新初始化一个环境，与之前的全部都是零相对，这就是学习，如下图

接下来是策略迭代然后策略迭代分为两部，分别是策略评估和策略更新

先是策略评估

可以看到，在这一步里面，它的一个学习方式和值迭代是有些类似的，但是也有差别，差别在哪呢，第一个差别，就是我们设置了for episode in （100），每个episode里面有一个while循环，然后环境更新初始化放在了每个episode里面，while外面，但是，策略评估把环境初始化更新的方法放在了while的里面。第二个差别，值迭代，是会直接走向V'最大的一方，并依据其更新V,而策略评估，则会随缘走，加权走，并未开始贪婪，如图所示

第二行，就是有一个括号里面的数值和仅为-1，并非-1，但也只得到了25%的加权，然后就按照此过程，在while里面一直更下去，直到收敛。。。。。。

策略评估结束，最开始的均匀随机策略如图所示，就是要拷打他，锤炼他，改善他

然后，模型会拿着这一张while循环了无数次的小地图，看，我以后要往哪走，往上？（-3+-1=-4），显然，往右走最好，走到右边，往哪走呢，按照刚刚的思路，一直循环下去，得到了最右边那张图，他已经自己画了一张比刚才相对成熟的策略，再去学习它，学完再进入下一个while。。。。。，这就是策略提升！之后便是策略评估，策略提升的无限循环

posted @ 2023-12-16 12:04 糖子哥阅读(97) 评论(0) 收藏举报

刷新页面返回顶部

值迭代与策略迭代（有模型）

公告