强化学习（蘑菇书）笔记

0.资源

2022.5.24
强化学习（Reinforce Learning, RL）由智能体和环境两部分组成。

两者区别如下：
（1）强化学习处理的大多是序列数据，监督学习要求数据独立同分布。
（2）RL学习器只能通过不停地尝试来发现最有利的动作。
（3）RL智能体获得自己能力的过程，其实是不断地试错探索的过程。
（4）RL没有非常强的监督者，只有延迟的奖励信号。

RL的特征：
（1）RL会试错探索。
（2）RL智能体会从环境中获得延迟的奖励。
（3）RL的训练过程中，时间非常重要（时间序列数据）。
（4）智能体的动作会影响它随后得到的数据。

（1）刚出生的羚羊学习跑步。
（2）股票交易（用RL来炒股效果如何？）
（3）玩雅达利（Breakout/Pong游戏）或其它游戏。

标准强化学习与深度强化学习（Deep Reinforce Learning, DRL）。

（1）DeepMind的走路智能体。
（2）机械臂抓取。
（3）OpenAI的机械臂翻魔方。
（4）穿衣服的智能体。

todo

posted @ 2022-05-24 20:30 萧驭阅读(154) 评论(0) 编辑收藏举报

刷新页面返回顶部