值迭代与策略迭代(有模型)

 先说一下我初始理解,就是图片上面有三部曲,然后他是一个有模型的算法,然后假如说我让他训练100次就是,用python来表达就是 for episode in (100),这个就是最外面的那一层循环,然后每次episode,就是上面三部曲,但是第一步初始化环境是会根据上一个episode来变化的,从第一个episode开始讲,就是比如你vs全部都给你设成0,然后你王子每走一步,就会得到一个-1的reward,然后你得找到一个V'最大的点走过去,那个点的V‘其实是0,所以你目前的本状态的vs就得到了就是-1,然后你就写下孙悟空到此一游,把-1标上去,就类似于到此一游吧,然后你给本状态的v写好了之后,再跑去下一个状态,按照上面的方法一直走下去,可以理解成,你 for episode in (100)里面套着一个while循环,最终到达终点,然后此时此刻,你这个while循环走完之后捏,然后你会进入下一个episode,你会得到一张写满了“到此一游”(就是各个格子V值)的一张地图(来自上一个episode的while循环),让模型把它吃下去,重新初始化一个环境,与之前的全部都是零相对,这就是学习,如下图

 

 

 

接下来是策略迭代然后策略迭代分为两部,分别是策略评估和策略更新

 

先是策略评估

 

 

 

 可以看到,在这一步里面,它的一个学习方式和值迭代是有些类似的,但是也有差别,差别在哪呢,第一个差别,就是我们设置了for episode in (100),每个episode里面有一个while循环,然后环境更新初始化放在了每个episode里面,while外面,但是,策略评估把环境初始化更新的方法放在了while的里面。第二个差别,值迭代,是会直接走向V'最大的一方,并依据其更新V,而策略评估,则会随缘走,加权走,并未开始贪婪,如图所示

 第二行,就是有一个括号里面的数值和仅为-1,并非-1,但也只得到了25%的加权,然后就按照此过程,在while里面一直更下去,直到收敛。。。。。。

 策略评估结束,最开始的均匀随机策略如图所示,就是要拷打他,锤炼他,改善他

 

 然后,模型会拿着这一张while循环了无数次的小地图,看,我以后要往哪走,往上?(-3+-1=-4),显然,往右走最好,走到右边,往哪走呢,按照刚刚的思路,一直循环下去,得到了最右边那张图,他已经自己画了一张比刚才相对成熟的策略,再去学习它,学完再进入下一个while。。。。。,这就是策略提升!之后便是策略评估,策略提升的无限循环

posted @ 2023-12-16 12:04  糖子哥  阅读(97)  评论(0)    收藏  举报