强化学习(David Silver)1：简介 - _1024

1、书

《An introduction to Reforcement Learning》Sutton and Barto, 1998，400页

《Algorithms for Reforcement Learning》Szepesvari，2010，偏数学，不到100页

2、强化学习的特点

不存在监督者，有奖励信号；

反馈是延迟的，不是每步都有奖励；

时序很重要（数据不是独立同分布的）

动作决定接下来的环境

3、强化学习的例子

飞机、游戏、股市、发电厂控制、人形机器人行走

4、强化学习基于奖励假设

强化学习的目标是最大化期望累积收益

5、代理和环境

代理：执行动作，接受观察，接收奖励

环境：接收动作，释放观察，释放奖励

6、历史和状态

未来将要发生什么依赖于历史

状态决定未来会发生什么

状态是历史信息的函数

历史内容太多，不易记录，状态可以看做历史信息的简化

6.1、状态环境

环境状态是环境的私有表达；代理接收到观察和奖励，但是往往并不知道环境的状态；即使环境状态可见，往往也包含不相关信息

ps：环境状态在算法中不可用

6.2、动作状态

历史信息的函数；强化学习真正使用到的状态

6.3、信息状态（马尔科夫态）

当前状态仅与上一个状态有关；与其它历史状态无关

6.4、完全观察环境

假设观察=动作状态=信息状态，此时强化学习是一个MDP

6.5、部分观察环境

代理不能直接观察到环境；这是一个POMDP（partially observable MDP）

7、代理的构成

7.1、策略

如何执行，是状态到动作的映射，可以是确定性策略，也可以是非确定性策略

7.2、值函数

值定义：对未来奖励的预测

值函数：对状态和/或动作的评估；

类型：状态值函数；动作值函数；无论哪一种形式，都是基于某种策略来说的

用途：动作/状态选择；通过对动作/状态估值，进行策略选择

7.3、模型

模型：预测环境接下来会做什么

类型：转移模型（代理在某个状态下，执行某个动作后，转移向另一个状态的概率）

奖励模型（代理在某个状态下执行某个动作后，环境给予的奖励）

7.4、代理的分类

ValueBased：无策略；有值函数

PolicyBased：有策略；无值函数

ActorCritic：有策略；有值函数

ModelFree：没有model

8、强化学习的两个基本问题

8.1、学习

学习是指环境未知，代理通过和环境交互，优化策略

8.2、规划

规划是指环境已知，代理进行内部计算，优化策略

8.3、关系

通过学习，可以学习到环境，把未知变成已知

如果发现文中有问题，敬请联系作者批评指正，真诚欢迎您的指教，谢谢！

微信: legelsr0808

邮箱: legelsr0808@163.com

发表于 2017-08-13 21:49 _1024 阅读(1388) 评论(0) 收藏举报