重修贝尔曼最优方程

 

我觉得,这一章的重点就是,辨析Q(pai)S和V(pai)S,辨析它们拿到最佳pai的时间地点

 

 第一个V(pai)s,因为上一张说他是“海王”,它就想着所有方法都试一下,它的侧重点是所有方法,所以它的概率值分配给不同的方法,比如方法一的概率是pai1,方法2就是(1-pai1),这样子分配下去,然后求出令V(pai)S2期望值最大的pai,这个pai即为所求,就是pai(max)

 

这个Qpai就是没有去纠结要选哪个方法,直接选了,走下去,就是算是类似于直接下场分析各个方法,因为其实到达概率这里是给了p=1,但感觉以后到达率不会直接给1,但先看当下吧,所以谁的期望值高我直接挑谁

 

 

 

 V(pai)S,就是找到当前你能找到的最牛逼的方法(奖励值最大)概率赋1,它其实就是找一个最牛的Q给自己用, 这个Q的话。。。感觉很像是迭代。。。后面往前叠。。噢噢,就是你现在先随便做某一个动作并得到奖励w,然后后面加上一个最牛逼的动作奖励乘衰减值

 

posted @ 2023-12-16 10:24  糖子哥  阅读(8)  评论(0编辑  收藏  举报