强化学习 Note - _1024

1、这篇note来自https://www.zybuluo.com/tinadu/note/629229

1.1、初步

作者认为，DRL可以用于解决通用人工智能问题，通用人工智能包含3部分：

通用任务：解决一般性任务，减少对领域知识的依赖；非线性的神经网络可以表征这一问题；

学习能力：学习分为归纳和演绎；深度学习是归纳，强化学习是演绎；

自省能力：意识和自我认知；通过强化学习的奖赏来获得。

1.2、深度学习

1.3、强化学习

强化学习来自心理学的行为主义理论；

强化学习可以看做是agent和环境的交互；

其中，agent获取状态s(t)，奖励r(t)，执行动作a(t)；

环境根据状态s和动作a(t)，执行策略状态s(t+1)，发出奖励r(t+1)，给出观察值o(t+1)。

RL的核心是价值函数的贝尔曼方程，是DP中的标准状态转移方程。

策略(Policy)函数、价值(Value)函数、环境(Model)函数是RL和DL结合的关键。

1.4、二者的融合

策略函数、价值函数、环境函数都是很难枚举的，通过深度学习来估算这些函数。

1.5、强化学习的三种算法

policy-based 方法；value-based方法；model-based方法

是不是可以认为：

DP既可以policy-based，value-based；

MC/TD/TD(lambda)都是value-based

值函数近似是value-based；策略梯度算法是policy-based；

那么为什么要用policy-based，不直接用valued-based呢？

SARSA是同策略TD控制算法

Q-learning是异策略的TD控制算法

DQN值函数估计算法

A3C策略梯度算法

微信: legelsr0808

邮箱: legelsr0808@163.com

发表于 2017-10-30 18:46 _1024 阅读(445) 评论(0) 编辑收藏举报