Andrew Ng机器学习课程17(2)

说明：主要介绍了利用value iteration和policy iteration两种迭代算法求解MDP问题，还介绍了在实际应用中如何通过积累“经验”更新对转移概率和reward的估计的学习模型，并结合两种迭代算法进行求解的完整过程。

2015-10-11 艺少

posted @ 2015-10-11 21:41 ZhangPYi 阅读(114) 评论(0) 收藏举报

刷新页面返回顶部

青春的纪念