强化学习学习笔记(四):具有时差(TD)和Q学习的无模型预测与控制

学习目标

1.了解TD(0)进行预测
2.了解SARSA对策略的控制
3.了解Q-Learning以进行异策略控制
4.了解TD算法相对于MC和DP方法的优势
5.了解n步方法如何统一MC和TD方法
6.了解TD-Lambda的前后视图

总结

1.D-Learning是Monte Carlo和动态规划思想的结合。 像蒙特卡洛一样,根据样本工作,不需要环境模型。 像动态规划一样,TD使用 bootstrapping进行更新。
2.MC还是TD更好取决于问题,并且没有理论结果证明是明显的赢家。

Sarsa: On-policy TD Control

Q-learning: 异策略 TD 控制

强化学习的早期突破之一是异策略 TD控制算法的开发,该算法称为Q学习(Watkins,1989),其定义为:
\(Q\left( {{S_t},{A_t}} \right) \leftarrow Q\left( {{S_t},{A_t}} \right) + \alpha \left[ {{R_{t + 1}} + \gamma \mathop {\max }\limits_a Q\left( {{S_{t + 1}},a} \right) - Q\left( {{S_t},{A_t}} \right)} \right]\)

posted @ 2020-08-08 17:06  feifanren  阅读(399)  评论(0编辑  收藏  举报