2019年6月21日
摘要: 马尔科夫决策过程(MDP) 1.1 MDP介绍 MDP是马尔科夫链的一种扩展。提供了一个用于对决策情景建模的数学框架。 MDP可以由5个关键要素表示: 智能体能够真正处于的一组状态(S)。 智能体从一种状态转移到另一种状态所执行的一组行为(A)。 转移概率($P_{{ss}’}^{a}$),这是执行 阅读全文
posted @ 2019-06-21 14:19 lovemoon123 阅读(1383) 评论(0) 推荐(0) 编辑
摘要: 马尔科夫决策过程(MDP) 1.1 MDP介绍 MDP是马尔科夫链的一种扩展。提供了一个用于对决策情景建模的数学框架。 MDP可以由5个关键要素表示: 智能体能够真正处于的一组状态(S)。 智能体从一种状态转移到另一种状态所执行的一组行为(A)。 转移概率($P_{{ss}’}^{a}$),这是执行 阅读全文
posted @ 2019-06-21 12:01 lovemoon123 阅读(141) 评论(0) 推荐(0) 编辑