马尔科夫决策过程

INTRO

马尔科夫决策过程(Markov Decision Process)是决策理论规划、强化学习等的一种直观和基本的模型。在这个模型中,环境通过一组状态和动作进行建模,然后被执行以控制系统的状态。通过这种方式控制系统的目的是最大化一个模型的性能指标。这其中的很多问题都可以通过马尔科夫决策过程建模。马尔科夫决策过程已经成为时序决策事实上的标准方法。马尔科夫决策过程可以看做是增加了动作和奖励的马尔科夫过程(Markov Process)。首先,什么是马尔科夫过程?

马尔科夫过程

当一个随机过程X 的未来状态的条件概率分布仅依赖于当前状态,即在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此随机过程即具有马尔可夫性质。具有马尔科夫性质的过程通常称为马尔科夫过程。
马尔科夫过程一个无记忆的随机过程,是一些具有马尔科夫性质的随机状态序列构成,可以用一个元组<S,P>表示,其中S是有限数量的状态集,P是状态转移概率矩阵。
而具备离散状态的马尔科夫过程一般称之为马尔科夫链。

马尔科夫决策过程

为什么引入马尔科夫决策过程

环境状态转换模型可以用一个概率模型表示:状态s 在动作a 作用下转换为状态s' 的概率是\(P_{s->s'}^a\)
真实的环境转化过程,转化到下一个状态𝑠′的概率既与上一个状态𝑠有关,还与上上个状态有关,以及上上上个状态有关。这一会导致我们的环境转化模型非常复杂,复杂到难以建模。因此我们需要对强化学习的环境转化模型进行简化。简化的方法就是假设状态转化的马尔科夫性质,也就是假设转化到下一个状态𝑠′的概率仅与上一个状态𝑠有关,与之前的状态无关,用公式表示就是:

\[P_{s->s'}^a = 𝔼(𝑆^𝑡+1=𝑠′|𝑆^𝑡=𝑠,𝐴^𝑡=𝑎) \]

马尔科夫决策过程定义

马尔科夫决策过程是在马尔科夫链的基础上加上奖励(reward)和决策(decision)。

  • 有限状态集S,
  • 有限动作集A,
  • 动作a 的转换函数\(P_a: P(s_+1 = s'|s_t = s; a_t = a)\)
  • 奖励方程 R: \(R(s_t=s,a_t=a)=E(r_t|s_t=s,a_t=a)\)
  • 阻尼系数\(\gamma\):[0,1],
    而马尔科夫决策过程(MDP)就是一个五元组:(S,A,P,R,\(\gamma\))或四元组(S,A,P,R)

//TODO

posted @ 2020-09-24 23:42  TuringM  阅读(617)  评论(0编辑  收藏  举报