一、强化学习简介
强化学习强调如何基于环境而行动,以取得最大化的预期收益。灵感来源于心理学中的行为主义理论,即有机体在环境给予奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。
强化学习所解决问题的特点:1、智能体和环境之间不断交互;2、搜索和试错;3、延迟奖励(当前的动作很多步后才会产生结果)。目标是获取更多的积累奖励和获得更可靠的估计。
二、历史发展
强化学习最早可以追溯到巴普洛夫的条件反射实验,从动物行为研究和优化控制两个领域独立发展,经Bellman之手抽象为马尔可夫决策过程(MDP)。强化学习已经发展了几十年,并不是一门新技术,2016年AlphaGo引发巨大关注。
1956年Bellman提出了动态规划方法。
1977年Werbos提出只适应动态规划算法。
1988年sutton提出时间差分算法。
1992年Watkins 提出Q-learning 算法。
1994年rummery 提出Saras算法。
1996年Bersekas提出解决随机过程中优化控制的神经动态规划方法。
2006年Kocsis提出了置信上限树算法。
2009年kewis提出反馈控制只适应动态规划算法。
2014年silver提出确定性策略梯度(Policy Gradients)算法。
2015年Google-deepmind 提出Deep-Q-Network算法。
三、求解方法
1、动态规划方法
2、蒙特卡洛方法
3、时间差分方法
四、算法分类
1、理解环境vs不理解环境
2、基于概率vs基于价值
3、回合更新vs单步更新
4、在线学习vs离线学习
五、代表性算法
1、Q-learning
2、Sarsa
3、DQN
4、Policy Gradients
5、Actor-critic
参考文献: