马可夫决策过程（MDP）笔记1

一个基本马尔可夫决策过程由一个四元组构成M = (S, A, P_sa, 𝑅)，和马可夫链不同，马可夫决策过程考虑了动作。如果同时考虑未来的回报相对于当前决策的重要程度，引入衰减因子（折合因子）r，则马可夫决策过程表达成一个五元组：M=(S, A, P, γ, R)。其中：

策略（Policy）就是针对状态S采取的动作。但是有如下约束条件：

为了满足这些条件，用数学公式表达的目标函数就是这样的一个最大化递减奖励期望：

由此定义了一个状态下策略P的价值：

其中为衰减因子，用于平衡当前奖励和远期奖励的重要性，同时也避免在实现过程中计算无穷尽的可能。

当策略实施以后，就会对应一个动作，这样把原有价值的概念扩展到状态-动作对上，状态-动作的价值的定义如下：

由于马可夫链存在多种状态，所以单个状态策略价值并不能获得全体最优解，但是我们有最优策略理论，但真的是一个理论，是存在性理论，但本身并没有说明如何获得最优策略。

而如何求解最优策略是接下来要讨论的问题。

上面所讨论的价值函数，可以进一步表达为状态值函数和行为值函数：

他们在动态规划中，被称为贝尔曼方程，它表达了当前状态的值函数和下一个状态值函数之间的关系。而这两个函数之间的关系为：

posted on 2017-06-13 10:00 JeromeTang 阅读(609) 评论(0) 编辑收藏举报

刷新页面返回顶部

浮云之空