lec-1-Deep Reinforcement Learning, Decision Making, and Control

What is RL

基于学习的决策的数学形式
从经验中学习决策和控制的方法

Why should we study this now

深度神经网络特征方法
强化学习的提升
计算能力的提升

我们还需要解决哪些其他问题才能实现现实世界的顺序决策?

1.如何学习

Learning from reward

基本的强化学习处理的是最大化奖励，这并不是影响顺序决策的唯一问题!

更高级的方法．

1.从示例example中学习奖励函数(反向强化学习)
2.领域间的知识转移(迁移学习、元学习)
3.学习预测并利用预测来行动

2.other forms of supervision

①Learning from demonstrations（从演示中学习）

直接复制观察到的行为
从观察到的行为推断奖励(反向强化学习)

②Learning from observing the world（从观察世界中学习）

学会预测
无监督学习

③Learning from other tasks（从其他任务中学习）

转移学习
元学习：学会学习

为什么需要DRL

深度Deep可以处理复杂的感官输入，也可以计算非常复杂的函数
强化学习RL可以选择复杂的行为

DRL目前取得well的方面

在简单、已知的规则所控制的领域获得高度的熟练程度
在有足够经验的情况下，使用raw生图输入能够学习简单的技能
从模仿足够多的人为专家行为中学习

挑战

人类的学习速度非常快，而深度RL方法通常很慢
人类可以重复使用过去的知识，而深度学习中的迁移学习是一个有待解决的问题
不清楚奖励功能是什么
不清楚预测的作用是什么

Resource：CS285官网资料
 版权归原作者 Lee_ing 所有
未经原作者允许不得转载本文内容，否则将视为侵权:转载或者引用本文内容请注明来源及原作者

posted @ 2022-05-08 09:53 lee_ing 阅读(51) 评论(0) 编辑收藏举报

刷新页面返回顶部