初识马尔可夫过程
1.马尔可夫过程(状态+概率)
$$
S_{state}+P_{probability}
$$
定义:具有马尔可夫性质的有限随机状态序列S1,S2,... ...
无后效性:马尔可夫性质,只由当前状态决定,与前置状态无关。
$$
P(S_{t+1}|S_t)=P(S_{t+1}|S_1,...,S_t)
$$
状态转移概率:状态之间变化的概率。
例如:晴天和雨天是两个状态,状态转移矩阵为
晴天 | 雨天 | |
---|---|---|
晴天 | 0.8 | 0.2 |
雨天 | 0.4 | 0.6 |
第一列表示今天,第一行表示明天
即:今天是晴天,明天80%是晴天、20%是雨天;今天是雨天,明天40%是晴天、60%是雨天。
马尔可夫过程=状态+状态转移概率。
两个变形
- 隐马尔可夫模型=马尔可夫过程+观测+释放概率
隐藏的状态是 晴天和雨天,观察的状态是 人的表情(笑和哭)
如果今天是晴天,人的表情80%是笑和20%是哭;如果今天是雨天,人的表情20%是笑和80%是哭。(释放概率=P(观测状态|隐藏状态))
主要应用:
1)评估问题:已知马尔可夫过程和释放概率,求观测状态。即已知晴雨和释放概率,求人的表情。
2)解码问题:已知观测状态和释放概率,求马尔可夫过程。即已知人的表情和释放概率,求晴雨。
3)学习问题:已知马尔可夫过程和观测状态,求释放概率。即已知晴雨和人的表情,求释放概率。
-
马尔可夫奖励过程=马尔可夫过程+奖励R(从状态St转移到St+1的奖励,奖励与状态转移相伴生)
-
动作产生不确定的转态转移(状态不同,动作集合也不同,每个动作的执行概率不同)
- 不同的状态,会有不同的动作集合;
- 同一状态下,各个动作以概率分布体现;
- 某状态下的某动作,导致不同的状态转移;
马尔可夫奖励过程+动作=马尔可夫决策过程
-
动作产生确定的状态转移
动态规划问题:最短路问题中路段成本,即为状态转移奖励。
-
2. 马尔可夫奖励过程(状态+概率+奖励)
$$
S_{state}+P_{probability}+R_{reward}
$$
-
即时奖励 Rt+1:与状态转移相伴生,只要发生状态转移,就一定会产生对应的即时奖励;
-
长期奖励Gt:γ为衰减系数,表示即时奖励在当前的折扣值。长期奖励与状态转移链相互伴生,不同的状态转移链对应不同的长期奖励。
$$
G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+...=\sum{∞}_{k=0}{\gammakR_{t+k+1}}
$$ -
价值函数V(s):找到与状态相互伴生的量,进而评价状态的质量。
- 存在由状态St为起点的多条状态转移链;
- 每个链都有一个长期奖励Gt;
- 用St为起点的所有状态转移链的Gt的期望来衡量St的价值。
- V(St)=E[Gt|s=St] 状态与价值函数 相伴生。
3.马尔可夫决策过程(状态+概率+奖励+动作)
$$
S_{state}+P_{probability}+R_{reward}+A_{action}
$$
- 贝尔曼期望方程:V(St)=E[Rt+1+γV(St+1)|s=St]
- 动作:不同的动作会产生不同的结果。
- 策略π(a|s):π