摘要:
这篇笔记依然属于TD算法的范畴。Multi-Step-TD-Target 是对 TD算法的改进。在调整合适的i情况下,多步较于单步性能好很多。 阅读全文
![强化学习-学习笔记9 | Multi-Step-TD-Target](https://img2022.cnblogs.com/blog/2192866/202207/2192866-20220707203833064-1696256221.png)
摘要:
上一篇笔记认识了Sarsa,可以用来训练动作价值函数Qπ;本篇来学习Q-Learning,这是另一种 TD 算法,用来学习 最优动作价值函数 Q-star,这就是之前价值学习中用来训练 DQN 的算法。 阅读全文
![强化学习-学习笔记8 | Q-learning](https://img2022.cnblogs.com/blog/2192866/202207/2192866-20220707160828491-455075524.png)
摘要:
Sarsa算法 是 TD算法的一种,之前没有严谨推导过 TD 算法,这一篇就来从数学的角度推导一下 Sarsa 算法。注意,这部分属于 TD算法的延申。 阅读全文
![强化学习-学习笔记7 | Sarsa算法原理与推导](https://img2022.cnblogs.com/blog/2192866/202207/2192866-20220707122208902-447793753.png)