2024 年 5月 18 日随笔档案 - Dsp Tian

2024年5月18日

摘要：之前有实现Q-Learning走迷宫，本篇实现SARSA走迷宫。 Q-Learning是一种off-policy算法，当前步采取的决策action不直接作用于环境生成下一次state，而是选择最优的奖励来更新Q表。更新公式： SARSA是一种on-policy算法，当前步采取的策略action既直阅读全文

posted @ 2024-05-18 20:36 Dsp Tian 阅读(46) 评论(0) 推荐(0) 编辑

Dsp Tian

公告