1、这篇note来自https://www.zybuluo.com/tinadu/note/629229

1.1、初步

作者认为,DRL可以用于解决通用人工智能问题,通用人工智能包含3部分:

通用任务:解决一般性任务,减少对领域知识的依赖;非线性的神经网络可以表征这一问题;

学习能力:学习分为归纳和演绎;深度学习是归纳,强化学习是演绎;

自省能力:意识和自我认知;通过强化学习的奖赏来获得。

1.2、深度学习

1.3、强化学习

强化学习来自心理学的行为主义理论;

强化学习可以看做是agent和环境的交互;

其中,agent获取状态s(t),奖励r(t),执行动作a(t);

环境根据状态s和动作a(t),执行策略状态s(t+1),发出奖励r(t+1),给出观察值o(t+1)。

RL的核心是价值函数的贝尔曼方程,是DP中的标准状态转移方程。

策略(Policy)函数、价值(Value)函数、环境(Model)函数是RL和DL结合的关键。

1.4、二者的融合

策略函数、价值函数、环境函数都是很难枚举的,通过深度学习来估算这些函数。

1.5、强化学习的三种算法

policy-based 方法;value-based方法;model-based方法

是不是可以认为:

DP既可以policy-based,value-based;

MC/TD/TD(lambda)都是value-based

值函数近似是value-based;策略梯度算法是policy-based;

那么为什么要用policy-based,不直接用valued-based呢?

SARSA是同策略TD控制算法

Q-learning是异策略的TD控制算法

DQN值函数估计算法

A3C策略梯度算法

 

如果发现文中有问题,敬请联系作者批评指正,真诚欢迎您的指教,谢谢!

微信: legelsr0808

邮箱: legelsr0808@163.com