2018 年 11月 1 日随笔档案 - yijun0730

2018年11月1日

3. 免模型策略估计——蒙特卡洛（Monte-Carlo）和时序差分（Temporal-Difference）

摘要：上一篇动态规划讲的是在马尔科夫模型$<S, A, P, R, \gamma>$完全已知的情况下，利用概率全展开求解最优策略。可是有很多实际的情况是，我们没办法获得准确的分布来全概率展开的，那么对于这样马尔科夫模型不完全已知，即转移概率未知，不能全概率展开的情况我们应该怎么做呢？这就是强化学习的核心了阅读全文

posted @ 2018-11-01 11:48 yijun0730 阅读(901) 评论(0) 推荐(0) 编辑

yijun0730

3. 免模型策略估计——蒙特卡洛（Monte-Carlo）和时序差分（Temporal-Difference）

导航