摘要:
马尔科夫决策过程(MDP) 1.1 MDP介绍 MDP是马尔科夫链的一种扩展。提供了一个用于对决策情景建模的数学框架。 MDP可以由5个关键要素表示: 智能体能够真正处于的一组状态(S)。 智能体从一种状态转移到另一种状态所执行的一组行为(A)。 转移概率($P_{{ss}’}^{a}$),这是执行 阅读全文
摘要:
马尔科夫决策过程(MDP) 1.1 MDP介绍 MDP是马尔科夫链的一种扩展。提供了一个用于对决策情景建模的数学框架。 MDP可以由5个关键要素表示: 智能体能够真正处于的一组状态(S)。 智能体从一种状态转移到另一种状态所执行的一组行为(A)。 转移概率($P_{{ss}’}^{a}$),这是执行 阅读全文