2018年12月18日

4. 免模型策略改进——蒙特卡洛(Monte-Carlo)和时序差分(Temporal-Difference)

摘要: 针对马尔科夫模型不完全已知,即转移概率未知,不能全概率展开的情况,上一篇介绍了策略评估的方法,这一篇对应介绍策略改进的方法,分别是 针对每一个完整决策过程,先估计策略再改进策略的蒙特卡洛同策略学习方式; 针对完整决策过程中的每一步状态动作对生成,评估改进同一个策略$\pi$的时序差分同策略Sarsa 阅读全文

posted @ 2018-12-18 21:04 yijun0730 阅读(1251) 评论(0) 推荐(0) 编辑

导航