摘要: 请先阅读上一篇文章:【RL系列】马尔可夫决策过程与动态编程 在上一篇文章里,主要讨论了马尔可夫决策过程模型的来源和基本思想,并以MAB问题为例简单的介绍了动态编程的基本方法。虽然上一篇文章中的马尔可夫决策过程模型实现起来比较简单,但我认为其存在两个小问题: 数学表达上不够简洁 状态价值评价型问题与动 阅读全文
posted @ 2018-07-12 15:50 JinyuBlog 阅读(1750) 评论(0) 推荐(1) 编辑