博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随机过程——马尔可夫决策过程

Posted on 2018-11-05 11:08  MwingFly  阅读(2538)  评论(0编辑  收藏  举报

  马尔可夫决策过程是基于马尔可夫过程理论的随机动态系统最优决策过程。马尔可夫决策过程是序贯决策的主要研究领域。它是马尔可夫过程与确定性的动态规划相结合的产物,故又称马尔可夫型随机动态规划,属于运筹学中数学规划的一个分支。

序贯决策

  有些决策问题,决策者只需要作一次决策即可,这类决策方法称单阶段决策。但是很多时候,不仅需要单阶段决策,更需要进行多阶段决策,即序贯决策。

  序贯决策是指按时间顺序排列起来,以得到按顺序的各种决策(策略),是用于随机性或不确定性动态系统最优化的决策方法。

序贯决策特点

  • 无后效性。序贯决策是前一段决策方案的选择,直接影响到后一阶段决策方案的选择,后一阶段的选择取决于前一阶段决策方案的结果。
  • 多阶段性。序贯决策具有在时间上有先后之别的多阶段决策。决策者关心的是多阶段决策的总结果,而不是各阶段的当即结果。
  • 预测性。决策的实施是对各采用的多种可行方案进行比较,择其最优。序贯决策若对各种可行方案的前景加以预测,在预测的结果中会显示出最优可行方案。
  • 条件性。序贯决策是根据最优性原理求解,问题是所涉及的过程都要满足一定的条件,即马尔可夫性。也就是利用转移概率矩阵和相应的利润矩阵对不同方案在作出预测的基础上进行决策。
  • 连续性。每个阶段所面临的状态,带有各自的不确定性,需要对每一个阶段作出决策,下一个阶段决策是在前一个阶段决策基础上再进行决策,这样连续进行,形成一序列方案。