我的Github:   Github
摘要: 上篇文章讲到Q-learning, Sarsa与Q-learning的在决策上是完全相同的,不同之处在于学习的方式上 这次我们用openai gym的Taxi来做演示 Taxi是一个出租车的游戏,把顾客送到目的地+20分,每走一步-1分,如果在路上把乘客赶下车的话扣10分 简要 Sarsa是一种在线 阅读全文
posted @ 2018-01-11 17:11 寂夜云 阅读(1491) 评论(0) 推荐(1) 编辑