2018 年 12月 18 日随笔档案 - yijun0730

2018年12月18日

4. 免模型策略改进——蒙特卡洛（Monte-Carlo）和时序差分（Temporal-Difference）

摘要：针对马尔科夫模型不完全已知，即转移概率未知，不能全概率展开的情况，上一篇介绍了策略评估的方法，这一篇对应介绍策略改进的方法，分别是针对每一个完整决策过程，先估计策略再改进策略的蒙特卡洛同策略学习方式；针对完整决策过程中的每一步状态动作对生成，评估改进同一个策略$\pi$的时序差分同策略Sarsa 阅读全文

posted @ 2018-12-18 21:04 yijun0730 阅读(1251) 评论(0) 推荐(0) 编辑

yijun0730

4. 免模型策略改进——蒙特卡洛（Monte-Carlo）和时序差分（Temporal-Difference）

导航