强化学习之路 - 02 基本概念

概率统计基本概念#

估计量#

无偏估计:估计量的数学期望等于被估计参数的真实值,即在多次重复下,它们的平均数接近所估计的参数真值,则称此估计量为被估计参数的无偏估计,即具有无偏性。

强化学习基本概念#

有模型和无模型#

模型指的是显式地对MDP相关转移概率分布和回报函数建模。

蒙特卡洛方法和时间差分方法#

蒙特卡洛方法#

  • 蒙特卡洛方法必须等到一条轨迹生成(真实值)之后才能更新。

  • 蒙特卡洛方法有比较大的方差。

  • 使用蒙特卡洛方法更新的算法有:

    • Policy Gradient

    • TRPO

    • PPO

时间差分方法#

  • 时间差分方法在每一步动作执行之后都可以通过自举法(Bootstrapping)及时更新。

  • 时间差分法有比较大的偏差。

  • 使用时间差分方法更新的算法有:

    • Actor-Critic

    • Q-Learning

    • DDPG

    • DQN

在线策略方法和离线策略方法#

在线策略(on-policy)和离线策略(off-policy)方法依据策略学习的方式对强化学习算法进行划分。

on-policy#

on-policy方法要求智能体与环境交互的策略和要提升的策略是相同的。
属于on-policy方法的有:
Sarsa、Policy Gradient(TRPO/PPO)、Actor-Critic(A2C/A3C)

off-policy#

off-policy方法不要求智能体与环境交互的策略和要提升的策略是相同的,它可以利用其他智能体与环境交互得到的数据来提升自己的策略。
属于off-policy方法的有:
Q-Learning、DQN、DDPG、TD3、SAC

分幕式(episodic)任务和持续性(continuous)任务#

分幕式(episodic)任务#

分幕式任务有起始时刻最终时刻,在这类任务中,智能体和环境的交互能被自然地分成一系列子序列(每个序列都存在最终时刻),称每个子序列为幕 (episodes,在某些文献中也被称为trials),例如一盘游戏、一次走迷宫的旅程或任何这类重复性的交互过程。每幕都以一种特殊状态结束,称之为终结状态(terminal state)。随后会重新从某个标准的起始状态或起始状态中的某个状态样本开始。即使结束的方式不同,例如比赛的胜负,下一幕的开始状态与上一幕的结束方式完全无关。例如超级马里奥,起始状态就是游戏开始界面,终结状态就是被杀死或者到达最后关卡。因此,这些幕可以被认为在同样的终结状态下结束,只是对不同的结果有不同的收益。具有这种分幕重复特性的任务称为分幕式任务。有时,我们需要区分非终结状态集,记为S,和包含终结与非终结状态的所有状态集,记作S+

一般来说,我们寻求的是最大化期望回报,记为Gt,它被定义为收益序列的一些特定函数。在最简单的情况下,回报是收益的总和:

GtRt+1+Rt+2+Rt+3++RT

其中T为最终时刻。

持续性(continuous)任务#

许多情况下,智能体-环境的交互不一定能被自然地分为单独的episode,而是持续不断地发生。例如:长期运行的机器人应用、自动交易股票的机器人。智能体在人为停止之前一直运行。我们称这些为持续性任务。上面的回报公式用于描述持续性任务时会出现问题,因为最终时刻T=,并且我们试图最大化的回报也很容易趋于无穷(例如,假设智能体在每个时刻都收到+1的收益)。因此我们引入了折扣因子的概念。根据这种方法,智能体尝试选择动作,使得它在未来收到的经过折扣系数加权后的收益总和是最大化的。此时,折后回报为:

GtRt+1+γRt+2+γ2Rt+3+=k=0γkRt+k+1

其中,γ是一个参数,0γ1,被称为折扣率

posted @   HeyRay_Yang  阅读(163)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
点击右上角即可分享
微信分享提示
主题色彩