强化学习(蘑菇书)笔记
0.资源
1.绪论
1.1.强化学习概述
2022.5.24
强化学习(Reinforce Learning, RL)由智能体和环境两部分组成。
1.1.1.强化学习与监督学习
两者区别如下:
(1)强化学习处理的大多是序列数据,监督学习要求数据独立同分布。
(2)RL学习器只能通过不停地尝试来发现最有利的动作。
(3)RL智能体获得自己能力的过程,其实是不断地试错探索的过程。
(4)RL没有非常强的监督者,只有延迟的奖励信号。
RL的特征:
(1)RL会试错探索。
(2)RL智能体会从环境中获得延迟的奖励。
(3)RL的训练过程中,时间非常重要(时间序列数据)。
(4)智能体的动作会影响它随后得到的数据。
1.1.2.强化学习的例子
(1)刚出生的羚羊学习跑步。
(2)股票交易(用RL来炒股效果如何?)
(3)玩雅达利(Breakout/Pong游戏)或其它游戏。
1.1.3.强化学习的历史
标准强化学习与深度强化学习(Deep Reinforce Learning, DRL)。
1.1.4.强化学习的应用
(1)DeepMind的走路智能体。
(2)机械臂抓取。
(3)OpenAI的机械臂翻魔方。
(4)穿衣服的智能体。
1.2.序列决策概述
todo