会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
feifanren
博客园
首页
新随笔
联系
订阅
管理
2020年8月6日
强化学习学习笔记(三)-蒙特卡洛(MC)的无模型预测和控制
摘要: #学习目标 1.了解预测与控制之间的区别 2.知道如何使用MC方法预测状态值和状态-动作值 3.了解基于同策略的首次访问MC控制算法 4.了解异政策的MC控制算法 5.了解加权重要性抽样 6.了解MC算法比动态规划方法的优势 #总结 1.动态规划方法假定完全了解环境(MDP)。 在实践中,我们通常对
阅读全文
posted @ 2020-08-06 16:42 feifanren
阅读(728)
评论(0)
推荐(0)
编辑
公告