强化学习的数学原理-01基本概念

state:$The \quad status \quad of \quad agent \quad with \quad respect \quad to \quad the \quad environment$ (agent 相对于环境的状态)

对于下面的网格地图来说：$state$就相当于$ location $,用 $s_1、s_2、...、s_9$来表示

state space：$The \quad set \quad of \quad all \quad state \quad S = \{s_i\}_{i=1}^{9}$ 状态空间,把所有$state$放在一起得到的集合就是$state \quad space$

Action: $For \quad each \quad state, \quad there \quad are \quad five \quad possible \quad actoin: a_1、a_2、a_3、a_4、a_5$

Action space of a state:$the \quad set \quad of \quad all possible actions \quad of \quad a \ quad state$

$A(s_i) = \{a_i\}_{i=1}^{5}$

state transition: 当采取了一个$action$后，$agent$从一个$state$转移到另一个$state$,这样一个过程佳作$state \quad transition$

$state \quad transition$定义一种$agent$和$environment$交互的行为

Forbidden area:有两种情况，一种是forbidden are可以到达，但是会得到相应的惩罚，另一种是forbidden area不可到达，相当于有一堵墙。

Tabular representation:可以用表格来描述state transition

只能能表示确定的情况

相比于上面的表格，更一般的做法是使用下面这种方法

state transition probability:使用概率来描述state transition

Policy：告诉agent在一个状态应该采取什么动作

$\pi$在强化学习中用来表示条件概率，而不是圆周率
上面图片中的情况是确定性的策略，同时也有不确定的策略

Reward:reward是action采取一个action后得到的实数，一个正的reward代表鼓励采取这样的action，一个负的reward代表惩罚这样的action。

reward可以理解成一个$human-machine \quad interface$,我们人类和机器交互的一个接口

reward依赖于当前的$state和采取的action$而不是依赖于接下来的$state$

trajectory:是一个$state-action-reward$ chain

Return:沿着trajectory，所有的reward相加得到得就是return

return的作用可以用来评估一个策略的好坏

discount return:

从上图可以看到上面的trajectory是无限长的，对应的return是发散的。

为了解决这个问题引入一个$discount \quad rate \quad \gamma \in [0, 1)$

上面的return就可以用discount return来表示

$discount return = 0 + \gamma * 0 + {\gamma^2} * 0 + {\gamma^3} * 1 + {\gamma^4} * 1 + ... $

$discount return = \gamma^3(1 + \gamma + \gamma^2 + \gamma^3 + ...)$

$discount return = \gamma^3(\frac{1}{1 - \gamma})$

episode\trial:一个有限步的trajectory被称为episode，也就是有terminal states的trajectory。

可以采用方法将episodic转化为continue的，在terminal state时无论采取什么action都会回到terminal state。

MDP:Markov decision process,马尔可夫决策过程是一个框架framework

一个马尔可夫决策过程中有很多关键的元素：

set:

Probability distribution:

Policy:
在状态s,采取action a的概率$\pi(a|s)$

Markov property:memoryless property

posted @ 2024-10-19 11:22 cxy8 阅读(4) 评论(0) 编辑收藏举报

刷新页面返回顶部

沉下心去做些事