摘要: 1. 前言 Q Learning算法也是时序差分算法的一种,和我们前面介绍的SARAS不同的是,SARSA算法遵从了交互序列,根据当前的真实行动进行价值估计;Q Learning算法没有遵循交互序列,而是在当前时刻选择了使价值最大的行动。 2. Q Learning Q Learning算法在计算当 阅读全文
posted @ 2019-03-09 11:28 hyc339408769 阅读(3575) 评论(0) 推荐(0) 编辑
摘要: 1. 前言 我们前面介绍了第一个Model Free的模型蒙特卡洛算法。蒙特卡罗法在估计价值时使用了完整序列的长期回报。而且蒙特卡洛法有较大的方差,模型不是很稳定。本节我们介绍时序差分法, 时序差分法不需要完整的序列,并且利用Bellman公式和动态规划进行迭代 。 2. 时序差分和蒙特卡洛比较 前 阅读全文
posted @ 2019-03-09 10:50 hyc339408769 阅读(2900) 评论(1) 推荐(0) 编辑