2018 年 1月 11 日随笔档案 - 寂夜云

2018年1月11日

摘要：上篇文章讲到Q-learning, Sarsa与Q-learning的在决策上是完全相同的，不同之处在于学习的方式上这次我们用openai gym的Taxi来做演示 Taxi是一个出租车的游戏，把顾客送到目的地+20分，每走一步-1分，如果在路上把乘客赶下车的话扣10分简要 Sarsa是一种在线阅读全文

posted @ 2018-01-11 17:11 寂夜云阅读(1492) 评论(0) 推荐(1) 编辑

寂夜云

婴其呜矣，求其友声

公告