重修贝尔曼最优方程

我觉得，这一章的重点就是，辨析Q(pai)S和V(pai)S,辨析它们拿到最佳pai的时间地点

第一个V(pai)s，因为上一张说他是“海王”，它就想着所有方法都试一下，它的侧重点是所有方法，所以它的概率值分配给不同的方法，比如方法一的概率是pai1，方法2就是（1-pai1），这样子分配下去，然后求出令V(pai)S2期望值最大的pai，这个pai即为所求，就是pai(max)

这个Qpai就是没有去纠结要选哪个方法，直接选了，走下去，就是算是类似于直接下场分析各个方法，因为其实到达概率这里是给了p=1,但感觉以后到达率不会直接给1，但先看当下吧，所以谁的期望值高我直接挑谁

V(pai)S,就是找到当前你能找到的最牛逼的方法（奖励值最大）概率赋1，它其实就是找一个最牛的Q给自己用, 这个Q的话。。。感觉很像是迭代。。。后面往前叠。。噢噢，就是你现在先随便做某一个动作并得到奖励w，然后后面加上一个最牛逼的动作奖励乘衰减值

posted @ 2023-12-16 10:24 糖子哥阅读(33) 评论(0) 收藏举报

刷新页面返回顶部