强化学习的基础知识和6种基本算法解释

强化学习的基础知识和概念简介(无模型、在线学习、离线强化学习等)

机器学习(ML)分为三个分支:监督学习、无监督学习和强化学习。

  • 监督学习(SL):关注在给定标记训练数据的情况下获得正确的输出
  • 无监督学习(UL):关注在没有预先存在的标签的情况下发现数据中的模式
  • 强化学习(RL):关注智能体在环境中如何采取行动以最大化累积奖励

通俗地说,强化学习类似于婴儿学习和发现世界,如果有奖励(正强化),婴儿可能会执行一个行动,如果有惩罚(负强化),婴儿就不太可能执行这个行动。这也是来自监督学习和非监督学习的强化学习之间的主要区别,后者从静态数据集学习,而前者从探索中学习。

本文将涉及强化学习的术语和基本组成部分,以及不同类型的强化学习(无模型、基于模型、在线学习和离线学习)。本文最后用算法来说明不同类型的强化学习。

本文的公式基于Stuart J. Russell和Peter Norvig的教科书《Artificial Intelligence: A Modern Approach》(第四版),为了保持数学方程格式的一致性所以略有改动,。

完整文章:

https://avoid.overfit.cn/post/ddd23fcbbd9b4c1aa1ecbfd10ed0e083

posted @ 2022-12-19 11:14  deephub  阅读(113)  评论(0编辑  收藏  举报