增强学习资料整合（从基础理论到实现实例）

来源于知乎杜客的知乎文章https://www.zhihu.com/people/du-ke/posts

这里整理的是整个增强学习的基础了解部分

1. 吴恩达对于增强学习的形象论述（上）

前言：吴恩达在2003年为完成博士学位要求做了专题论文：Shaping and policy search in Reinforcement learning，其第一、二章被伯克利CS294：深度增强学习课程作为推荐材料。本文基于笔者的理解，对第一章做有选择的编译与注释。

来自 <https://zhuanlan.zhihu.com/p/24761972>

2. 吴恩达对于增强学习的形象论述（下）

前言：吴恩达在2003年为完成博士学位要求做了专题论文：Shaping and policy search in Reinforcement learning，其第一、二章被伯克利CS294：深度增强学习课程作为推荐材料。本文基于笔者的理解，对第二章做有选择的编译与注释。

来自 <https://zhuanlan.zhihu.com/p/24996278>

3. DQN 从入门到放弃1 DQN与增强学习

深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习End-to-End Learning的一种全新的算法。简单的说，就是和人类一样，输入感知信息比如视觉，然后通过深度神经网络，直接输出动作，中间没有hand-crafted engineering的工作。深度增强学习具备使机器人实现真正完全自主的学习一种甚至多种技能的潜力。

来自 <https://zhuanlan.zhihu.com/p/21262246>

4. DQN 从入门到放弃2 增强学习与MDP

1 上文回顾

在上一篇文章DQN 从入门到放弃第一篇中，我们回答了三个问题：

为什么研究深度增强学习？
为什么研究DQN？
什么是增强学习？

那么在这一篇文章中，我们将进一步探讨增强学习的世界观以及随之而来的MDP马尔科夫决策过程。

来自 <https://zhuanlan.zhihu.com/p/21292697>

5. DQN 从入门到放弃3 价值函数与Bellman方程

1 上文回顾

在上一篇文章DQN 从入门到放弃第二篇中，我们探讨了增强学习问题的基本假设，然后引出了MDP马尔科夫决策过程。MDP只需要用一句话就可以说明白，就是“未来只取决于当前”，专业点说就是下一步的状态只取决于当前的状态，与过去的状态没有关系。这里大家要注意这里所说的状态是完全可观察的，也就是上帝眼中的世界。再举例说明一下完全可观察的意思就是比如我们的眼睛看到的世界，那就是不完全可观察的，我们并不清楚的知道眼前的每一个物体，比如人，车，动物的真实物理位置，因此也就是无法准确知道它们下一个时刻的状态（比如车的位置）只能通过估算的方法来估计。而在上帝眼中，那么每一个物体的位置和速度信息都是确定的，也因此下一个时刻的状态也就是完全确定的。

在引出了MDP之后，由于每一个时刻的状态是确定的，因此我们可以用Value Function价值函数来描述这个状态的价值，从而确定我们的决策方式。有知友表示不是很理解Value Function，那么下面我们再具体探讨一下。

来自 <https://zhuanlan.zhihu.com/p/21340755>

6. DQN 从入门到放弃4 动态规划与Q-Learning

Flood Sung

1 年前

1 上文回顾

在上一篇文章DQN从入门到放弃第三篇中，我们分析到了Bellman方程，其方程

极其简洁，透出的含义就是价值函数的计算可以通过迭代的方式来实现。接下来本文将介绍如何构建基于Bellman方程的算法及Q-Learning。首先介绍动作价值函数

来自 <https://zhuanlan.zhihu.com/p/21378532>

7. DQN从入门到放弃5 深度解读DQN算法

0 前言

如果说DQN从入门到放弃的前四篇是开胃菜的话，那么本篇文章就是主菜了。所以，等吃完主菜再放弃吧！

来自 <https://zhuanlan.zhihu.com/p/21421729>

7. DQN从入门到放弃6 DQN的各种改进

1 前言

在上一篇文章DQN从入门到放弃5 深度解读DQN算法中，我们深入地介绍了基本的DQN算法，也就是NIPS 2013版本的算法。那么在这之后，DeepMind不断对DQN进行改进，首先在2015年初发布了Nature文章，提出了Nature版本的DQN，然后接下来在2015年一年内提出了Double DQN，Prioritied Replay，还有Dueling Network三种主要方法，又极大的提升了DQN的性能，目前的改进型DQN算法在Atari游戏的平均得分是Nature版DQN的三倍之多。因此，在本文中，我们将介绍一下各个改进的方法。

来自 <https://zhuanlan.zhihu.com/p/21547911>

8. DQN从入门到放弃7 连续控制DQN算法-NAF

1 前言

在上一篇文章DQN从入门到放弃6 DQN的各种改进中，我们介绍了DQN的各个方面的改进。从各种改进的角度和思路很有利于我们思考如何去创新这个事情。那么，本着从入门到放弃的精神[呲牙]，在今天这篇文章中，我们还是来分析一下将DQN拓展到连续控制的算法------NAF。

来自 <https://zhuanlan.zhihu.com/p/21609472>

9. 深度增强学习之Policy Gradient方法1

1 前言

在之前的深度增强学习系列文章中，我们已经详细分析了DQN算法，一种基于价值Value的算法，那么在今天，我们和大家一起分析深度增强学习中的另一种算法，也就是基于策略梯度Policy Gradient的算法。这种算法和基于价值Value的算法结合而成的Actor-Critic算法是目前效果最好的深度增强学习算法。

那么关于Policy Gradient方法的学习，有以下一些网上的资源值得看：