Bellman方程

思想:当前状态的价值和下一步的价值和当前的奖励有关。价值函数分解为当前奖励和下一步价值函数两部分,类似于递归的思想

 

 例如在上面这个图中。vπ(s)是状态s的价值函数。π(a|s)是状态s下执行行为a的概率,Rsa是对应的即时奖励,是在状态S下执行了动作a之后转移到状态S′的概率。

 

 

 上面这个图就是实际计算过程,计算的是最右边这个状态的价值。往上走study动作为a3,往下走为a4

posted @ 2020-04-02 11:15  地球上最后一个直男  阅读(1075)  评论(0编辑  收藏  举报