2019 年 3月 9 日随笔档案 - hyc339408769

2019年3月9日

摘要： 1. 前言 Q Learning算法也是时序差分算法的一种，和我们前面介绍的SARAS不同的是，SARSA算法遵从了交互序列，根据当前的真实行动进行价值估计；Q Learning算法没有遵循交互序列，而是在当前时刻选择了使价值最大的行动。 2. Q Learning Q Learning算法在计算当阅读全文

posted @ 2019-03-09 11:28 hyc339408769 阅读(3575) 评论(0) 推荐(0) 编辑

强化学习-时序差分算法（TD）和SARAS法

摘要： 1. 前言我们前面介绍了第一个Model Free的模型蒙特卡洛算法。蒙特卡罗法在估计价值时使用了完整序列的长期回报。而且蒙特卡洛法有较大的方差，模型不是很稳定。本节我们介绍时序差分法，时序差分法不需要完整的序列，并且利用Bellman公式和动态规划进行迭代。 2. 时序差分和蒙特卡洛比较前阅读全文

posted @ 2019-03-09 10:50 hyc339408769 阅读(2900) 评论(1) 推荐(0) 编辑

人工智站

公告