10 2013 档案

摘要:MDP又称马尔可夫决策过程。MDP提供了一种结果部分随机部分可控的决策制定框架,具体而言,马尔可夫决策过程是离散时间点的随机控制过程。在每一步,过程在特定的状态S,而决策者可能选择任何在状态S下可用的行动 a,过程在下一个时间点随机的进入S'状态,并且给予决策者奖励 。过程选择行为a 进入状态的可能性由状态转移函数决定,然而下一个状态S'只依赖于当前状态,而与以前的状态无关,换句话说,马尔科夫决策过程的状态转移具有markov性。马尔可夫决策过程是一个四元组。其中是有限的状态集合有限行动集合(或者,是在状态s下可以选择的行动的集合),是在状态s下时间点t执行行动a在时间点t + 阅读全文
posted @ 2013-10-16 16:11 独立寒风 阅读(656) 评论(0) 推荐(0) 编辑