摘要: 强化学习-学习笔记9 | Multi-Step-TD-Target 这篇笔记依然属于TD算法的范畴。Multi-Step-TD-Target 是对 TD算法的改进。在调整合适的i情况下,多步较于单步性能好很多。 阅读全文
posted @ 2022-07-07 20:39 climerecho 阅读(1051) 评论(0) 推荐(1) 编辑
摘要:  强化学习-学习笔记8 | Q-learning 上一篇笔记认识了Sarsa,可以用来训练动作价值函数Qπ;本篇来学习Q-Learning,这是另一种 TD 算法,用来学习 最优动作价值函数 Q-star,这就是之前价值学习中用来训练 DQN 的算法。 阅读全文
posted @ 2022-07-07 16:09 climerecho 阅读(685) 评论(1) 推荐(2) 编辑
摘要: 强化学习-学习笔记7 | Sarsa算法原理与推导 Sarsa算法 是 TD算法的一种,之前没有严谨推导过 TD 算法,这一篇就来从数学的角度推导一下 Sarsa 算法。注意,这部分属于 TD算法的延申。 阅读全文
posted @ 2022-07-07 12:23 climerecho 阅读(1149) 评论(1) 推荐(1) 编辑