强化学习(蘑菇书)笔记
0.资源
1.绪论
1.1.强化学习概述
2022.5.24
强化学习(Reinforce Learning, RL)由智能体和环境两部分组成。
1.1.1.强化学习与监督学习
两者区别如下:
(1)强化学习处理的大多是序列数据,监督学习要求数据独立同分布。
(2)RL学习器只能通过不停地尝试来发现最有利的动作。
(3)RL智能体获得自己能力的过程,其实是不断地试错探索的过程。
(4)RL没有非常强的监督者,只有延迟的奖励信号。
RL的特征:
(1)RL会试错探索。
(2)RL智能体会从环境中获得延迟的奖励。
(3)RL的训练过程中,时间非常重要(时间序列数据)。
(4)智能体的动作会影响它随后得到的数据。
1.1.2.强化学习的例子
(1)刚出生的羚羊学习跑步。
(2)股票交易(用RL来炒股效果如何?)
(3)玩雅达利(Breakout/Pong游戏)或其它游戏。
1.1.3.强化学习的历史
标准强化学习与深度强化学习(Deep Reinforce Learning, DRL)。
1.1.4.强化学习的应用
(1)DeepMind的走路智能体。
(2)机械臂抓取。
(3)OpenAI的机械臂翻魔方。
(4)穿衣服的智能体。
1.2.序列决策概述
todo
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY