一、强化学习简介

  强化学习强调如何基于环境而行动,以取得最大化的预期收益。灵感来源于心理学中的行为主义理论,即有机体在环境给予奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。

  强化学习所解决问题的特点:1、智能体和环境之间不断交互;2、搜索和试错;3、延迟奖励(当前的动作很多步后才会产生结果)。目标是获取更多的积累奖励和获得更可靠的估计。

二、历史发展

  强化学习最早可以追溯到巴普洛夫的条件反射实验,从动物行为研究和优化控制两个领域独立发展,经Bellman之手抽象为马尔可夫决策过程(MDP)。强化学习已经发展了几十年,并不是一门新技术,2016年AlphaGo引发巨大关注。

  1956年Bellman提出了动态规划方法。

  1977年Werbos提出只适应动态规划算法。

  1988年sutton提出时间差分算法。

  1992年Watkins 提出Q-learning 算法。

  1994年rummery 提出Saras算法。

  1996年Bersekas提出解决随机过程中优化控制的神经动态规划方法。

  2006年Kocsis提出了置信上限树算法。

  2009年kewis提出反馈控制只适应动态规划算法。

  2014年silver提出确定性策略梯度(Policy Gradients)算法。

  2015年Google-deepmind 提出Deep-Q-Network算法。

三、求解方法

  1、动态规划方法

  2、蒙特卡洛方法

  3、时间差分方法

四、算法分类

  1、理解环境vs不理解环境

  2、基于概率vs基于价值

  3、回合更新vs单步更新

  4、在线学习vs离线学习

五、代表性算法

  1、Q-learning

  2、Sarsa

  3、DQN

  4、Policy Gradients

  5、Actor-critic

 

参考文献:

强化学习入门总结 菜鸟很菜csdn

  

  

posted on 2019-11-22 09:29  筱筱蛋坑  阅读(718)  评论(0编辑  收藏  举报