会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
我的Github:
Github
寂夜云
婴其呜矣,求其友声
博客园
首页
新随笔
联系
订阅
管理
2018年1月11日
强化学习之Sarsa (时间差分学习)
摘要: 上篇文章讲到Q-learning, Sarsa与Q-learning的在决策上是完全相同的,不同之处在于学习的方式上 这次我们用openai gym的Taxi来做演示 Taxi是一个出租车的游戏,把顾客送到目的地+20分,每走一步-1分,如果在路上把乘客赶下车的话扣10分 简要 Sarsa是一种在线
阅读全文
posted @ 2018-01-11 17:11 寂夜云
阅读(1492)
评论(0)
推荐(1)
编辑
公告