马尔科夫决策过程

INTRO

马尔科夫决策过程（Markov Decision Process）是决策理论规划、强化学习等的一种直观和基本的模型。在这个模型中，环境通过一组状态和动作进行建模，然后被执行以控制系统的状态。通过这种方式控制系统的目的是最大化一个模型的性能指标。这其中的很多问题都可以通过马尔科夫决策过程建模。马尔科夫决策过程已经成为时序决策事实上的标准方法。马尔科夫决策过程可以看做是增加了动作和奖励的马尔科夫过程（Markov Process）。首先，什么是马尔科夫过程？

马尔科夫过程

当一个随机过程X 的未来状态的条件概率分布仅依赖于当前状态，即在给定现在状态时，它与过去状态（即该过程的历史路径）是条件独立的，那么此随机过程即具有马尔可夫性质。具有马尔科夫性质的过程通常称为马尔科夫过程。
马尔科夫过程一个无记忆的随机过程，是一些具有马尔科夫性质的随机状态序列构成，可以用一个元组<S,P>表示，其中S是有限数量的状态集，P是状态转移概率矩阵。
而具备离散状态的马尔科夫过程一般称之为马尔科夫链。

马尔科夫决策过程

为什么引入马尔科夫决策过程

环境状态转换模型可以用一个概率模型表示：状态s 在动作a 作用下转换为状态s' 的概率是\(P_{s->s'}^a\)。
真实的环境转化过程，转化到下一个状态𝑠′的概率既与上一个状态𝑠有关，还与上上个状态有关，以及上上上个状态有关。这一会导致我们的环境转化模型非常复杂，复杂到难以建模。因此我们需要对强化学习的环境转化模型进行简化。简化的方法就是假设状态转化的马尔科夫性质，也就是假设转化到下一个状态𝑠′的概率仅与上一个状态𝑠有关，与之前的状态无关，用公式表示就是:

\[P_{s->s'}^a = 𝔼(𝑆^𝑡+1=𝑠′|𝑆^𝑡=𝑠,𝐴^𝑡=𝑎) \]

马尔科夫决策过程定义

马尔科夫决策过程是在马尔科夫链的基础上加上奖励（reward）和决策（decision）。

有限状态集S，
有限动作集A，
动作a 的转换函数\(P_a: P(s_+1 = s'|s_t = s; a_t = a)\)，
奖励方程 R: \(R(s_t=s,a_t=a)=E(r_t|s_t=s,a_t=a)\)，
阻尼系数\(\gamma\)：[0,1]，
而马尔科夫决策过程（MDP）就是一个五元组：(S,A,P,R,\(\gamma\))或四元组(S,A,P,R)

//TODO

posted @ 2020-09-24 23:42 TuringM 阅读(617) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Alex Logs

知行合一

马尔科夫决策过程

INTRO

马尔科夫过程

马尔科夫决策过程

为什么引入马尔科夫决策过程

马尔科夫决策过程定义

公告

Alex Logs

知 行 合 一

马尔科夫决策过程

INTRO

马尔科夫过程

马尔科夫决策过程

为什么引入马尔科夫决策过程

马尔科夫决策过程定义

公告

知行合一