重修贝尔曼方程，深刻体悟sar三件套之美

我第一次学贝尔曼方程的时候，当时没有搞清楚VpaiS和Vs的区别，今天大概能理解了，那我讲一讲

先看Vs，就是他到达某个特定状态之后得到的奖励加上后面衰减常数乘上，一大串，一大串是什么呢，就是一个求和，求和的是什么呢，就是到达下一个状态的状态值（可以理解为预期奖励大小）乘上到达下一个状态的概率，类似于一个期望值，但是本质区别就是，Rs和R(pai)s,Rs是有了结果到达终点的奖励值，而R(pai)s,是你在原地思考，采取什么动作，你做所有动作的一个期望值

再看VpaiS,刚开始我只看到这个公式第一行，这是很抽象很难理解的，于是可以直接去看最后一行，有点恶心，求和嵌套求和，可以先不用那么复杂，可以先把最外面的求和符号拿掉方便理解，如果没有最后一行，我甚至不知道RpaiS是啥，它其实就是，状态S下，采用某个a(action)的概率乘上Rsa,就是在状态S下，采用a所得到的奖励，那么求和之后，就是你在状态S中，你做所有策略，就是你去行动，所有行动奖赏按比例分配的一个期望值，（就是你在某个状态，你动一下，的期望值，跟结果没关系）那么后面那一大串就是，你到达VpaiS'的一个pai型值乘上比例（到达的概率），也是一个求期望的方式

所以Vs可理解为，偏向结果

VpaiS更偏向过程action，就是可以看他后面叠加的衰减值的区别，V就是，你从s到s'状态的一个状态值期望，而V(pai)就是一个期望，就是你用尽心机，用尽所有方法达到目标的一个期望值

所以这个Qpai（Sa）与上面V（pai）的区别就是，上面的V（pai）是对所有的a(action)求期望（海王），而Qpai（sa）是对某个特定的a进行分析，就是只就算了某个行为的奖励（纯情），没有对所有行为奖励求期望，他的衰减部分是加上"海王"的，就是采取这个特定方式，成为下一个状态的期望值，通过期望什么呢，因为S'未知，所以求，采取该方法，到达S'的期望对比这个对Vpai(s')按照比例求期望，这个比例也是基于，action是某个特定的a

理解一下上文Q(pai)计算时“海王V”前面的P，第一行就是，s到s'的概率，第二行它等于S状态下，采取a的概率乘上，采取a方法的条件下，达到终点s'的概率

posted @ 2023-12-16 01:10 糖子哥阅读(25) 评论(0) 编辑收藏举报

刷新页面返回顶部

重修贝尔曼方程，深刻体悟sar三件套之美

公告