lec-1-Deep Reinforcement Learning, Decision Making, and Control

What is RL

基于学习的决策的数学形式
从经验中学习决策和控制的方法

Why should we study this now

  • 深度神经网络特征方法
  • 强化学习的提升
  • 计算能力的提升

我们还需要解决哪些其他问题才能实现现实世界的顺序决策?

1.如何学习

Learning from reward

基本的强化学习处理的是最大化奖励,这并不是影响顺序决策的唯一问题!

更高级的方法.

1.从示例example中学习奖励函数(反向强化学习)
2.领域间的知识转移(迁移学习、元学习)
3.学习预测并利用预测来行动

2.other forms of supervision

①Learning from demonstrations(从演示中学习)

  • 直接复制观察到的行为
  • 从观察到的行为推断奖励(反向强化学习)

②Learning from observing the world(从观察世界中学习)

  • 学会预测
  • 无监督学习

③Learning from other tasks(从其他任务中学习)

  • 转移学习
  • 元学习:学会学习

为什么需要DRL

深度Deep可以处理复杂的感官输入,也可以计算非常复杂的函数
强化学习RL可以选择复杂的行为

DRL目前取得well的方面

  • 在简单、已知的规则所控制的领域获得高度的熟练程度
  • 在有足够经验的情况下,使用raw生图输入能够学习简单的技能
  • 从模仿足够多的人为专家行为中学习

挑战

  • 人类的学习速度非常快,而深度RL方法通常很慢
  • 人类可以重复使用过去的知识,而深度学习中的迁移学习是一个有待解决的问题
  • 不清楚奖励功能是什么
  • 不清楚预测的作用是什么

Resource:CS285官网资料
版权归原作者 Lee_ing 所有
未经原作者允许不得转载本文内容,否则将视为侵权:转载或者引用本文内容请注明来源及原作者

posted @ 2022-05-08 09:53  lee_ing  阅读(51)  评论(0编辑  收藏  举报