2017 年 6月随笔档案 - 琳千寻

MDP（MarkovDecisionProcess,马尔卡夫决策树）实现总结

摘要：MDP算法简介：首先MDP算法由五个单元组成（S、A、Psa(s')、R、G） S：代表状态集合，即整个事件有多少中可能的状态 A：代表每个状态下的所有可能的行为 Psa(s')：代表在状态s下采取行为a转移到s'的状态转移概率 R：代表的是回报函数（reward function）,指到达某个状态阅读全文

posted @ 2017-06-20 11:43 琳千寻阅读(1525) 评论(0) 推荐(0) 编辑

06 2017 档案