强化学习-强化学习的基本概念

强化学习的目标

强化学习是一种学习如何将状态映射到动作，以获得最大奖励的学习机制。学习者不会被告知要采取哪些动作，而是必须通过尝试来发现哪些动作会产生最大的回报。

强化学习与监督学习的区别

监督学习的样本都具有标记或者标签，明确知道什么是正确的动作。
强化学习的样本的都是交互的记录，不知道正确的动作是什么，但是会有每个动作的 反应，要根据 反应 来推断什么动作是正确的。

强化学习与无监督学习的区别

无监督学习主要是寻找数据间的隐藏结构。
强化学习虽然同样没有正确行为的标记，但是它并不关心样本数据不同维度之间的关系，只关心交互的奖励。

强化学习区别于其他学习方式的其他特征

探索（Exploration）与利用（Exploitation）的权衡是强化学习区别监督与非监督的特征，也是关键挑战。
强化学习的另一个特征是，它考虑了个体的目标在不确定环境中交互的整个问题。（这一点还没有很明显的 get 到。）强化学习个体都有明确的目标，可以感知环境的各个方面，并可以选择影响其环境的动作。此外，尽管个体面临的环境有很大的不确定性，通常从一开始就假设个体必须采取动作。当强化学习涉及规划时，它必须解决规划和实时动作选择之间的相互作用，以及如何获取和改进环境模型的问题。当强化学习涉及监督学习时，它要确定决定哪些能力是关键的，哪些是不重要。为了学习研究以取得进步，必须隔离和研究重要的子问题，即使不能体现所有完整的细节，它们也应该是在完整的、交互式的、寻求目标的个体中有明确功能的子问题。

强化学习的要素

智能体

做行为决策的机器。
可以感知环境的状态，做出决策，并且根据环境的变化能理解“奖励”。

环境

智能体以外的变化的且影响智能体的事情。

策略

定义的是智能体如何在特定状态下的行为方式，就是从环境状态到智能体行为动作的映射。

奖励

定义的是强化学习的目标。每个时间步骤（每次交互），环境给智能体一个标量值，就是奖励。智能体强化学习的目标就是使累积的奖励最大化。
奖励通常是环境状态和动作的随机函数。

价值函数

奖励信号表明了直接或者说即时的利益，而价值函数描述的是长期的收益。
状态的价值是该状态开始在未来可以预期累积的收益总额。一个状态可能短期产生较低的收益，但是可能在未来存在很高的收益，那它的价值也会很高。（比如内啡肽）。

奖励很好估计，可以由环境直接给出；但是价值需要智能体在整个生命周期内观察和评估。事实上，大多数的强化学习算法的核心部分就是有效地估计价值。

环境模型

环境的模拟，在给定的状态和动作，预测环境未来的状态。一般在基于模型的方法（比如，动态规划）里面会有，智能体可以根据模型来规划自己的行为。在不基于模型的方法里面就没有环境模型，智能体通过试错来学习。
现代强化学习已经从低级的、试错学习跨越到高层次的、有计划的学习。

Reference

上一篇路径规划-PRM算法（1）

下一篇强化学习-表格型算法Q学习稳定倒立摆小车

posted @ 2024-07-06 21:50 pomolnc 阅读(43) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 强化学习-表格型算法Q学习稳定倒立摆小车

· 路径规划-PRM算法（1）

· 动手学强化学习第一章初探强化学习阅读笔记

· 强化学习从基础到进阶-常见问题和面试必知必答[1]：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验

· Reinforcement Learning Chapter 1

pomolnc

强化学习-强化学习的基本概念

强化学习的目标

强化学习与监督学习的区别

强化学习与无监督学习的区别

强化学习区别于其他学习方式的其他特征

强化学习的要素

智能体

环境

策略

奖励

价值函数

环境模型

More Reading

Reference

公告

常用链接

最新随笔

我的标签

积分与排名

随笔档案

阅读排行榜

推荐排行榜