摘要:
1. 前言 Q Learning算法也是时序差分算法的一种,和我们前面介绍的SARAS不同的是,SARSA算法遵从了交互序列,根据当前的真实行动进行价值估计;Q Learning算法没有遵循交互序列,而是在当前时刻选择了使价值最大的行动。 2. Q Learning Q Learning算法在计算当 阅读全文
摘要:
1. 前言 我们前面介绍了第一个Model Free的模型蒙特卡洛算法。蒙特卡罗法在估计价值时使用了完整序列的长期回报。而且蒙特卡洛法有较大的方差,模型不是很稳定。本节我们介绍时序差分法, 时序差分法不需要完整的序列,并且利用Bellman公式和动态规划进行迭代 。 2. 时序差分和蒙特卡洛比较 前 阅读全文