摘要: MDP算法简介:首先MDP算法由五个单元组成(S、A、Psa(s')、R、G) S:代表状态集合,即整个事件有多少中可能的状态 A:代表每个状态下的所有可能的行为 Psa(s'):代表在状态s下采取行为a转移到s'的状态转移概率 R:代表的是回报函数(reward function),指到达某个状态 阅读全文