强化学习读书笔记 - 01 - 强化学习的问题

什么是强化学习(Reinforcement Learning)

强化学习是一种通过交互的目标导向学习方法，或者说是计算方向。
不同于监督学习和非监督学习。
监督学习是通过已标签的数据，学习分类的逻辑。
非监督学习是通过未标签的数据，找到其中的隐藏模式。

符合行为心理学。
一种探索(exploration)和采用(exploitation)的权衡
强化学习一面要采用(exploitation)已经发现的有效行动，
另一方面也要探索(exploration)那些没有被认可的行动，已找到更好的解决方案。
考虑整个问题而不是子问题
通用AI

两条主线：

起源于动物学习心理学的试错法(trial-and-error)。
优化控制(optimal control) - 评估方法(value function)，动态编程(dynamic programming)，差分计算(temporal difference)。

posted @ 2017-02-25 00:01 SNYang 阅读(5366) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 互联网不景气了那就玩玩嵌入式吧，用纯.NET开发并制作一个智能桌面机器人（四）：结合BotSharp
· Vite CVE-2025-30208 安全漏洞
· MQ 如何保证数据一致性？
· 《HelloGitHub》第 108 期
· 一个基于 .NET 开源免费的异地组网和内网穿透工具