摘要: $\gamma$ $$ \alpha = \sum_{i = 1}^{N} \left(M_{i} + \frac{x_i}{p} \right) $$ 阅读全文
posted @ 2018-07-11 13:45 JinyuBlog 阅读(209) 评论(0) 推荐(0) 编辑
摘要: 推荐阅读顺序: Reinforcement Learning: An Introduction (Drfit) 有限马尔可夫决策过程 动态编程笔记 Dynamic programming in Python 本篇 马尔可夫决策过程 马尔可夫决策(MDP)过程为强化学习(RL)提供了理论基础,而动态编 阅读全文
posted @ 2018-07-11 13:25 JinyuBlog 阅读(5082) 评论(0) 推荐(1) 编辑