会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
JinyuBlog
博客园
首页
新随笔
联系
订阅
管理
2018年7月23日
【RL系列】从蒙特卡罗方法步入真正的强化学习
摘要: 蒙特卡罗方法给我的感觉是和Reinforcement Learning: An Introduction的第二章中Bandit问题的解法比较相似,两者皆是通过大量的实验然后估计每个状态动作的平均收益。不过两者的区别也是显而易见,Bandit问题比较简单,状态1->动作1->状态1,这个状态转移过程始
阅读全文
posted @ 2018-07-23 22:54 JinyuBlog
阅读(530)
评论(0)
推荐(0)
编辑
公告