强化学习的数学原理-01基本概念


state:Thestatusofagentwithrespecttotheenvironment (agent 相对于环境的状态)

对于下面的网格地图来说:state就相当于location,用 s1s2...s9来表示

1729303073134.png


state spaceThesetofallstateS={si}i=19 状态空间,把所有state放在一起得到的集合就是statespace


Action: Foreachstate,therearefivepossibleactoin:a1a2a3a4a5

1729303532260.png


Action space of a state:thesetofallpossibleactionsofa quadstate

A(si)={ai}i=15


state transition: 当采取了一个action后,agent从一个state转移到另一个state,这样一个过程佳作statetransition

1729304537661.png

statetransition定义一种agentenvironment交互的行为


Forbidden area:有两种情况,一种是forbidden are可以到达,但是会得到相应的惩罚,另一种是forbidden area不可到达,相当于有一堵墙。


Tabular representation:可以用表格来描述state transition
1729304959518.png
只能能表示确定的情况


相比于上面的表格,更一般的做法是使用下面这种方法

state transition probability:使用概率来描述state transition

image


Policy:告诉agent在一个状态应该采取什么动作
1729305366018.png
1729305463666.png
π在强化学习中用来表示条件概率,而不是圆周率
上面图片中的情况是确定性的策略,同时也有不确定的策略
1729305663829.png


Reward:reward是action采取一个action后得到的实数,一个正的reward代表鼓励采取这样的action,一个负的reward代表惩罚这样的action。

reward可以理解成一个humanmachineinterface,我们人类和机器交互的一个接口

reward依赖于当前的stateaction而不是依赖于接下来的state


trajectory:是一个stateactionreward chain

1729306345177.png

1729306323925.png


Return:沿着trajectory,所有的reward相加得到得就是return

return的作用可以用来评估一个策略的好坏


discount return:
1729306642425.png

从上图可以看到上面的trajectory是无限长的,对应的return是发散的。

为了解决这个问题引入一个discountrateγ[0,1)

上面的return就可以用discount return来表示

discountreturn=0+γ0+γ20+γ31+γ41+...

discountreturn=γ3(1+γ+γ2+γ3+...)

discountreturn=γ3(11γ)


episode\trial:一个有限步的trajectory被称为episode,也就是有terminal states的trajectory。

可以采用方法将episodic转化为continue的,在terminal state时无论采取什么action都会回到terminal state。


MDP:Markov decision process,马尔可夫决策过程是一个框架framework

一个马尔可夫决策过程中有很多关键的元素:

set:

  1. State:
  2. Action
  3. Reward

Probability distribution:

  • State transition probability:在一个状态s,采取action a,转移到状态s的概率p(s|s,a)
  • Reward probability:在状态s,采取action a,得到reward r的概率p(r|s,a)

Policy:
在状态s,采取action a的概率π(a|s)

Markov property:memoryless property

1729307848322.png

posted @   cxy8  阅读(7)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· DeepSeek在M芯片Mac上本地化部署
点击右上角即可分享
微信分享提示