MDP马尔科夫决策过程

马尔科夫决策过程(MDP)

MDP是马尔科夫链的一种扩展。提供了一个用于对决策情景建模的数学框架。

MDP可以由5个关键要素表示：

智能体试图使得从环境中获得的总奖励最大化，而不是及时奖励。智能体获得的奖励总额可计算如下：

\[R_t=r_{t+1}+r_{t+2}+r_{t+3}+\cdots+r_T \]

情景任务是具有一个终端状态的任务，在强化学习中，情景可以看做从初始状态到最终状态中智能体与环境的交互。

在连续任务中，没有终端状态。

已知智能体的任务是使得汇报最大化。对于一个情景任务，可以定义汇报为

posted on 2019-06-21 12:01 lovemoon123 阅读(141) 评论(0) 编辑收藏举报