摘要:
神经科学是对神经系统的多学科研究的总称,主要包括:如何调节身体功能,如何控制行为,随着时间增长而发生的发育、学习和衰老的现象,以及细胞和分子机制如何使这些功能成为可能。强化学习的最令人兴奋的方面之一是来自神经科学的证据越来越多的表明,人类和许多其他动物的神经系统实施的算法和强化学习算法在很多方面是对 阅读全文
摘要:
在前面的章节中,主要从计算机的角度考虑强化学习算法的思想。 在本章中,将从另一个角度来看待这些算法:心理学的角度及其对动物如何学习的研究。 强化学习提供的清晰的体系架构将任务、回报和算法系统化,在理解实验数据、提出新的实验类型、理解可能对控制和测量至关重要的因素方面被证明是非常有用的。 优化长期回报 阅读全文
摘要:
前面介绍的强化学习算法都是根据状态价值函数或者动作价值函数来选择最优策略。 本章利用参数化方法训练一个策略模型,从而根据策略模型去选择合适的动作。记策略模型的参数为\(\theta\),策略模型\(\pi(a|s,\theta)=\Pr\{A_t=a|S_t=s,\theta_t=\theta\}\ 阅读全文
摘要:
有效循迹是强化学习中的一个重要机制。几乎所有的时序差分(TD)学习方法都可以与之结合来提升学习效率,例如Sarsa算法、Q-learning算法。有效循迹方法将蒙特卡洛(MC)方法与TD方法相结合,使得MC方法同样可以采用逐步更新的方式,传统的蒙特卡洛MC方法需要到终止状态才进行更新。有效循迹方法具 阅读全文
摘要:
离线策略方法可以帮助解决探索与挖掘之间的矛盾,这是强化学习中不可避免的问题。将相比于在线策略方法,将函数近似扩展到离线策略方法会变得更加困难,例如半梯度法在离线策略学习过程中会出现无法收敛的情况。本章会针对线性函数拟合进行更为深入的理论分析,并引入可学习的概念。回顾一下离线学习算法,学习目标策略\( 阅读全文
摘要:
与第九章相比,第十章考虑的是控制问题即寻找最优策略,那么本章近似的价值函数将是动作价值函数\(q(s,a,w)\)。 1.回合制的半梯度控制 与第九章的基于的梯度下降的参数更新核心方式类似,考虑状态-动作对的映射关系\(S_t,A_t\mapsto U_t\),可得 \[w_{t+1}=w_t+\a 阅读全文
摘要:
本书第一部分主要讲述利用列表法实现策略评估和学习,从第九章开始进入的全书的第二部分近似求解方法。对于大型状态空间的强化学习问题,列表法难以避免维数灾难,因此在有限计算资源下采用近似求解方法,例如基于参数的函数近似方法,可以更有效的解决强化学习问题。函数近似的本质就是学习状态和价值之间的映射关系。给定 阅读全文
摘要:
本章主要从一个统一的观点对前面章节的方法进行归纳总结。可以将目前所学的强化学习方法分为两类,一类是基于模型的(model-based)方法,例如有动态规划和启发式搜索(heuristic search);另一类不需要模型的(model-free)方法,例如蒙特卡罗(Monte Carlo,MC)方法 阅读全文
摘要:
本章将会把蒙特卡洛(Monte Carlo, MC)算法和单步时序差分(one-step temporal-difference, TD(0))方法相结合。MC算法需要完成一轮交互才进行更新,而TD(0)算法则是每一步都进行更新,两者都比较极端。n步TD算法综合了这两者的特点,它可以允许交互\(n\ 阅读全文
摘要:
时序差分(temporal difference,TD)学习是强化学习最核心和流行的方法。TD学习结合了MC和DP的思想,既类似蒙特卡洛(Monte Carlo,MC)方法直接从交互经验中学习而不需要获得环境动态信息,又类似动态规划(Dynamic Programming, DP)方法利用其他状态的 阅读全文