马可夫决策过程(MDP)笔记1

表示方法

一个基本马尔可夫决策过程由一个四元组构成M = (S, A, Psa, 𝑅),和马可夫链不同,马可夫决策过程考虑了动作。如果同时考虑未来的回报相对于当前决策的重要程度,引入衰减因子(折合因子)r,则马可夫决策过程表达成一个五元组:M=(S, A, P, γ, R)。其中:

 1. S S表示状态集 (states);
2. A A 表示动作集 (Action);
3.  Psass,a表示状态 s 下采取动作 a 之后转移到 s' 状态的概率;
4. Rs,a R表示状态 s 下采取动作 a 获得的奖励;
5. γ γ是衰减因子,表示动作影响随着时间的推移产出的衰减

 

策略和价值

策略(Policy)就是针对状态S采取的动作。但是有如下约束条件:

  1. 考虑转移概率Psa
  2. 获得当前较大的奖励R
  3. 避免因此策略(动作)导致系统进入死胡同(致命惩罚)

为了满足这些条件,用数学公式表达的目标函数就是这样的一个最大化递减奖励期望:

由此定义了一个状态下策略P的价值

其中为衰减因子,用于平衡当前奖励和远期奖励的重要性,同时也避免在实现过程中计算无穷尽的可能。

当策略实施以后,就会对应一个动作,这样把原有价值的概念扩展到状态-动作对上,状态-动作价值的定义如下:

 

最优策略和贝尔曼等式

由于马可夫链存在多种状态,所以单个状态策略价值并不能获得全体最优解,但是我们有最优策略理论,但真的是一个理论,是存在性理论,但本身并没有说明如何获得最优策略。

而如何求解最优策略是接下来要讨论的问题。

值函数

上面所讨论的价值函数,可以进一步表达为状态值函数行为值函数:

他们在动态规划中,被称为贝尔曼方程,它表达了当前状态的值函数和下一个状态值函数之间的关系。而这两个函数之间的关系为:

 

Reference:

【1】马可夫决策过程:http://www.cnblogs.com/jinxulin/p/3517377.html?utm_source=tuicool&utm_medium=referral

【2】http://baike.baidu.com/item/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E5%86%B3%E7%AD%96

【3】增强学习资料:http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html

posted on 2017-06-13 10:00  JeromeTang  阅读(610)  评论(0编辑  收藏  举报