马可夫决策过程(MDP)笔记1
表示方法
一个基本马尔可夫决策过程由一个四元组构成M = (S, A, Psa, 𝑅),和马可夫链不同,马可夫决策过程考虑了动作。如果同时考虑未来的回报相对于当前决策的重要程度,引入衰减因子(折合因子)r,则马可夫决策过程表达成一个五元组:M=(S, A, P, γ, R)。其中:
1. S S表示状态集 (states);
2. A A 表示动作集 (Action);
3. Psa表示状态 s 下采取动作 a 之后转移到 s' 状态的概率;
4. Rs,a R表示状态 s 下采取动作 a 获得的奖励;
5. γ γ是衰减因子,表示动作影响随着时间的推移产出的衰减
策略和价值
策略(Policy)就是针对状态S采取的动作。但是有如下约束条件:
- 考虑转移概率Psa
- 获得当前较大的奖励R
- 避免因此策略(动作)导致系统进入死胡同(致命惩罚)
为了满足这些条件,用数学公式表达的目标函数就是这样的一个最大化递减奖励期望:
由此定义了一个状态下策略P的价值:
其中为衰减因子,用于平衡当前奖励和远期奖励的重要性,同时也避免在实现过程中计算无穷尽的可能。
当策略实施以后,就会对应一个动作,这样把原有价值的概念扩展到状态-动作对上,状态-动作的价值的定义如下:
最优策略和贝尔曼等式
由于马可夫链存在多种状态,所以单个状态策略价值并不能获得全体最优解,但是我们有最优策略理论,但真的是一个理论,是存在性理论,但本身并没有说明如何获得最优策略。
而如何求解最优策略是接下来要讨论的问题。
值函数
上面所讨论的价值函数,可以进一步表达为状态值函数和行为值函数:
他们在动态规划中,被称为贝尔曼方程,它表达了当前状态的值函数和下一个状态值函数之间的关系。而这两个函数之间的关系为:
Reference:
【1】马可夫决策过程:http://www.cnblogs.com/jinxulin/p/3517377.html?utm_source=tuicool&utm_medium=referral
【2】http://baike.baidu.com/item/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E5%86%B3%E7%AD%96
【3】增强学习资料:http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html
posted on 2017-06-13 10:00 JeromeTang 阅读(609) 评论(0) 编辑 收藏 举报