Bellman方程

思想：当前状态的价值和下一步的价值和当前的奖励有关。价值函数分解为当前奖励和下一步价值函数两部分，类似于递归的思想

例如在上面这个图中。v_π(s)是状态s的价值函数。π(a|s)是状态s下执行行为a的概率，R_s^a是对应的即时奖励，是在状态S下执行了动作a之后转移到状态S′的概率。

上面这个图就是实际计算过程，计算的是最右边这个状态的价值。往上走study动作为a₃，往下走为a₄

posted @ 2020-04-02 11:15 地球上最后一个直男阅读(1118) 评论(0) 收藏举报

刷新页面返回顶部

地球上最后一个直男