强化学习的基础知识和6种基本算法解释

强化学习的基础知识和概念简介（无模型、在线学习、离线强化学习等）

机器学习(ML)分为三个分支:监督学习、无监督学习和强化学习。

通俗地说，强化学习类似于婴儿学习和发现世界，如果有奖励(正强化)，婴儿可能会执行一个行动，如果有惩罚(负强化)，婴儿就不太可能执行这个行动。这也是来自监督学习和非监督学习的强化学习之间的主要区别，后者从静态数据集学习，而前者从探索中学习。

本文将涉及强化学习的术语和基本组成部分，以及不同类型的强化学习(无模型、基于模型、在线学习和离线学习)。本文最后用算法来说明不同类型的强化学习。

本文的公式基于Stuart J. Russell和Peter Norvig的教科书《Artificial Intelligence: A Modern Approach》(第四版)，为了保持数学方程格式的一致性所以略有改动，。

完整文章：

posted @ 2022-12-19 11:14 deephub 阅读(165) 评论(0) 收藏举报

刷新页面返回顶部

deephub