会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
//
// // //
努力的孔子
2019年2月18日
强化学习6-MC与TD的比较-实战
摘要: 可以看到 随着学习率的增大,效果越来越好,当学习率为0.5时,已经明显过拟合了 这个是单步的,书上是单回合的,所以不同,后续有空会更新代码 随机行走有个特殊性:两个终点,有一个终点奖励为0,也就是说在前几个回合中,单步更新的TD如果一开始向左走,需要好多步才能到达右边终点,而MC由于是整个回合,要么
阅读全文
posted @ 2019-02-18 17:26 努力的孔子
阅读(1159)
评论(0)
推荐(0)
编辑
导航
博客园
首页
新随笔
新文章
联系
订阅
管理