2018年11月1日

3. 免模型策略估计——蒙特卡洛(Monte-Carlo)和时序差分(Temporal-Difference)

摘要: 上一篇动态规划讲的是在马尔科夫模型$<S, A, P, R, \gamma>$完全已知的情况下,利用概率全展开求解最优策略。可是有很多实际的情况是,我们没办法获得准确的分布来全概率展开的,那么对于这样马尔科夫模型不完全已知,即转移概率未知,不能全概率展开的情况我们应该怎么做呢?这就是强化学习的核心了 阅读全文

posted @ 2018-11-01 11:48 yijun0730 阅读(901) 评论(0) 推荐(0) 编辑

导航