强化学习读书笔记 - 01 - 强化学习的问题
强化学习读书笔记 - 01 - 强化学习的问题
Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016
什么是强化学习(Reinforcement Learning)
强化学习是一种通过交互的目标导向学习方法,或者说是计算方向。
不同于监督学习和非监督学习。
监督学习是通过已标签的数据,学习分类的逻辑。
非监督学习是通过未标签的数据,找到其中的隐藏模式。
强化学习的特点:
- 符合行为心理学。
- 一种探索(exploration)和采用(exploitation)的权衡
强化学习一面要采用(exploitation)已经发现的有效行动,
另一方面也要探索(exploration)那些没有被认可的行动,已找到更好的解决方案。 - 考虑整个问题而不是子问题
- 通用AI
强化学习的四元素
- 政策 (policy)
环境的感知状态到行动的映射方式。 - 奖赏信号 (reward signal)
定义强化学习问题的目标。 - 评估方法 (value function)
一个状态的价值就是从这个状态开始,期望在未来获得的奖赏。是指一种长期目标。 - 环境模型 (optional a model of environment)
模拟环境的行为。
强化学习的历史
两条主线:
- 起源于动物学习心理学的试错法(trial-and-error)。
- 优化控制(optimal control) - 评估方法(value function),动态编程(dynamic programming),差分计算(temporal difference)。
参照
非常感谢阅读!如有不足之处,请留下您的评价和问题。
请“推荐”本文!
请“推荐”本文!
标签:
强化学习
【推荐】还在用 ECharts 开发大屏?试试这款永久免费的开源 BI 工具!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 软件产品开发中常见的10个问题及处理方法
· .NET 原生驾驭 AI 新基建实战系列:向量数据库的应用与畅想
· 从问题排查到源码分析:ActiveMQ消费端频繁日志刷屏的秘密
· 一次Java后端服务间歇性响应慢的问题排查记录
· dotnet 源代码生成器分析器入门
· 互联网不景气了那就玩玩嵌入式吧,用纯.NET开发并制作一个智能桌面机器人(四):结合BotSharp
· Vite CVE-2025-30208 安全漏洞
· MQ 如何保证数据一致性?
· 《HelloGitHub》第 108 期
· 一个基于 .NET 开源免费的异地组网和内网穿透工具