强化学习的基础知识和6种基本算法解释
强化学习的基础知识和概念简介(无模型、在线学习、离线强化学习等)
机器学习(ML)分为三个分支:监督学习、无监督学习和强化学习。
- 监督学习(SL):关注在给定标记训练数据的情况下获得正确的输出
- 无监督学习(UL):关注在没有预先存在的标签的情况下发现数据中的模式
- 强化学习(RL):关注智能体在环境中如何采取行动以最大化累积奖励
通俗地说,强化学习类似于婴儿学习和发现世界,如果有奖励(正强化),婴儿可能会执行一个行动,如果有惩罚(负强化),婴儿就不太可能执行这个行动。这也是来自监督学习和非监督学习的强化学习之间的主要区别,后者从静态数据集学习,而前者从探索中学习。
本文将涉及强化学习的术语和基本组成部分,以及不同类型的强化学习(无模型、基于模型、在线学习和离线学习)。本文最后用算法来说明不同类型的强化学习。
本文的公式基于Stuart J. Russell和Peter Norvig的教科书《Artificial Intelligence: A Modern Approach》(第四版),为了保持数学方程格式的一致性所以略有改动,。
完整文章:
https://avoid.overfit.cn/post/ddd23fcbbd9b4c1aa1ecbfd10ed0e083
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
2021-12-19 阅读和实现深度学习的论文初学者指南