2022 年 7月 7 日随笔档案 - climerecho

摘要：

这篇笔记依然属于TD算法的范畴。Multi-Step-TD-Target 是对 TD算法的改进。在调整合适的i情况下，多步较于单步性能好很多。阅读全文

posted @ 2022-07-07 20:39 climerecho 阅读(1051) 评论(0) 推荐(1) 编辑

摘要：

上一篇笔记认识了Sarsa，可以用来训练动作价值函数Qπ；本篇来学习Q-Learning，这是另一种 TD 算法，用来学习最优动作价值函数 Q-star，这就是之前价值学习中用来训练 DQN 的算法。阅读全文

posted @ 2022-07-07 16:09 climerecho 阅读(685) 评论(1) 推荐(2) 编辑

摘要：

Sarsa算法是 TD算法的一种，之前没有严谨推导过 TD 算法，这一篇就来从数学的角度推导一下 Sarsa 算法。注意，这部分属于 TD算法的延申。阅读全文

posted @ 2022-07-07 12:23 climerecho 阅读(1149) 评论(1) 推荐(1) 编辑

Clivia Du