强化学习学习笔记(四):具有时差(TD)和Q学习的无模型预测与控制
学习目标
1.了解TD(0)进行预测
2.了解SARSA对策略的控制
3.了解Q-Learning以进行异策略控制
4.了解TD算法相对于MC和DP方法的优势
5.了解n步方法如何统一MC和TD方法
6.了解TD-Lambda的前后视图
总结
1.D-Learning是Monte Carlo和动态规划思想的结合。 像蒙特卡洛一样,根据样本工作,不需要环境模型。 像动态规划一样,TD使用 bootstrapping进行更新。
2.MC还是TD更好取决于问题,并且没有理论结果证明是明显的赢家。
Sarsa: On-policy TD Control
Q-learning: 异策略 TD 控制
强化学习的早期突破之一是异策略 TD控制算法的开发,该算法称为Q学习(Watkins,1989),其定义为:
\(Q\left( {{S_t},{A_t}} \right) \leftarrow Q\left( {{S_t},{A_t}} \right) + \alpha \left[ {{R_{t + 1}} + \gamma \mathop {\max }\limits_a Q\left( {{S_{t + 1}},a} \right) - Q\left( {{S_t},{A_t}} \right)} \right]\)