强化学习(蘑菇书)笔记

0.资源

蘑菇书EasyRL@Github

1.绪论

1.1.强化学习概述

2022.5.24
强化学习(Reinforce Learning, RL)由智能体和环境两部分组成。

1.1.1.强化学习与监督学习

两者区别如下:
(1)强化学习处理的大多是序列数据,监督学习要求数据独立同分布。
(2)RL学习器只能通过不停地尝试来发现最有利的动作。
(3)RL智能体获得自己能力的过程,其实是不断地试错探索的过程。
(4)RL没有非常强的监督者,只有延迟的奖励信号。

RL的特征:
(1)RL会试错探索。
(2)RL智能体会从环境中获得延迟的奖励。
(3)RL的训练过程中,时间非常重要(时间序列数据)。
(4)智能体的动作会影响它随后得到的数据。

1.1.2.强化学习的例子

(1)刚出生的羚羊学习跑步。
(2)股票交易(用RL来炒股效果如何?)
(3)玩雅达利(Breakout/Pong游戏)或其它游戏。

1.1.3.强化学习的历史

标准强化学习与深度强化学习(Deep Reinforce Learning, DRL)。

1.1.4.强化学习的应用

(1)DeepMind的走路智能体。
(2)机械臂抓取。
(3)OpenAI的机械臂翻魔方。
(4)穿衣服的智能体。

1.2.序列决策概述

todo

posted @ 2022-05-24 20:30  萧驭  阅读(154)  评论(0编辑  收藏  举报