随笔分类 - 强化学习
摘要:上篇文章讲到Q-learning, Sarsa与Q-learning的在决策上是完全相同的,不同之处在于学习的方式上 这次我们用openai gym的Taxi来做演示 Taxi是一个出租车的游戏,把顾客送到目的地+20分,每走一步-1分,如果在路上把乘客赶下车的话扣10分 简要 Sarsa是一种在线
阅读全文
摘要:许久没有更新重新拾起,献于小白 这次介绍的是强化学习 Q-learning,Q-learning也是离线学习的一种 关于Q-learning的算法详情看 传送门 下文中我们会用openai gym来做演示 简要 q-learning的伪代码先看这部分,很重要 简单的算法语言描述就是 开始执行任务:
阅读全文