今天开始连载强化学习,这个是以前看Reinforcement Learning: An Introduction 这本书做的笔记,最近发现Richard S. Sutton 和 Andrew G. Barto还在为本书更新,所以就想着把原来的笔记也更新一下,整理然后放在这里。
因为是笔记形式,所以这里的货是非常的干的。都是把自己认为重要的东西记了下来,当然也许会有太过骨感的意味。 但因为本次的定位不是给从不知道的人看的,而是给那些至少知道这本书的人一起交流的。
今天是引入,所以也就是几个概念。
Introduction
强化学习是学习如何最大化奖励。
强化学习一直需要面对一个问题,即是权衡exploration(开发) 与exploitation(探索)。
强化学习的一大特点是agent与不确定环境的互动。
Elements of Reinforcement Learning
Policy: 是学习agent在任何时刻的行为方式,是一个从当前环境状态到动作空间的映射。策略是强化学习的核心,强化学习可理解为如何做决策从而获得最大奖励,因此,策略即为最重要的部分,策略可以是一个简单的映射函数,也可能是一个‘状态形为’表格。另外,策略也可能是随机的形式,即在某一状态下,只给出每个形为的概率。
Reward: 强化学习的目标。在强化学习中,agent的目标就是最大化它能获得的所有reward。单个reward只是处于某一状态的即时感觉,那长远来看,即agent可能获得的所有reward,用value function来度量。
Value of a state: 是agent从当前状态算起,未来能获得的所有的reward总和。
Model of a environment: 是所有可用于推断环境如何反应的信息。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】博客园2025新款「AI繁忙」系列T恤上架,前往周边小店选购
【推荐】凌霞软件回馈社区,携手博客园推出1Panel与Halo联合会员
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 解锁.NET 9性能优化黑科技:从内存管理到Web性能的最全指南
· 通过一个DEMO理解MCP(模型上下文协议)的生命周期
· MySQL下200GB大表备份,利用传输表空间解决停服发版表备份问题
· 记一次 .NET某固高运动卡测试 卡慢分析
· 微服务架构学习与思考:微服务拆分的原则
· 解锁.NET 9性能优化黑科技:从内存管理到Web性能的最全指南
· Chat to MySQL 最佳实践:MCP Server 服务调用
· .NET周刊【3月第5期 2025-03-30】
· 重生之我是操作系统(八)----文件管理(上)
· 即时通信SSE和WebSocket对比