2018年10月25日

1. 马尔科夫决策过程

摘要: 马尔科夫特性: 下一时刻的状态只与现在的时刻的状态相关,与之前的时刻无关,即状态信息包含了历史的所有相关信息。 马尔科夫奖励过程,$<S, P, R, \gamma>$: $S$是有限状态集 $P$是状态转移概率矩阵,${p_{ss'}} = {\rm P}[{S_{t + 1}} = s'|{S_ 阅读全文

posted @ 2018-10-25 18:08 yijun0730 阅读(504) 评论(0) 推荐(0) 编辑

导航