初识马尔可夫过程

1.马尔可夫过程（状态+概率）

$$
S_{state}+P_{probability}
$$

定义：具有马尔可夫性质的有限随机状态序列S1，S2，... ...

无后效性：马尔可夫性质，只由当前状态决定，与前置状态无关。
$$
P(S_{t+1}|S_t)=P(S_{t+1}|S_1,...,S_t)
$$
状态转移概率：状态之间变化的概率。

例如：晴天和雨天是两个状态，状态转移矩阵为

	晴天	雨天
晴天	0.8	0.2
雨天	0.4	0.6

第一列表示今天，第一行表示明天

即：今天是晴天，明天80%是晴天、20%是雨天；今天是雨天，明天40%是晴天、60%是雨天。

马尔可夫过程=状态+状态转移概率。

隐藏的状态是晴天和雨天，观察的状态是人的表情（笑和哭）

如果今天是晴天，人的表情80%是笑和20%是哭；如果今天是雨天，人的表情20%是笑和80%是哭。（释放概率=P(观测状态|隐藏状态)）

主要应用：

1）评估问题：已知马尔可夫过程和释放概率，求观测状态。即已知晴雨和释放概率，求人的表情。

2）解码问题：已知观测状态和释放概率，求马尔可夫过程。即已知人的表情和释放概率，求晴雨。

3）学习问题：已知马尔可夫过程和观测状态，求释放概率。即已知晴雨和人的表情，求释放概率。

$$
S_{state}+P_{probability}+R_{reward}
$$

即时奖励 Rt+1：与状态转移相伴生，只要发生状态转移，就一定会产生对应的即时奖励；
长期奖励Gt：γ为衰减系数，表示即时奖励在当前的折扣值。长期奖励与状态转移链相互伴生，不同的状态转移链对应不同的长期奖励。
$$
G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+...=\sum^{{∞}_{k=0}{\gamma}kR_{t+k+1}}
$$
价值函数V(s)：找到与状态相互伴生的量，进而评价状态的质量。
- 存在由状态St为起点的多条状态转移链；
- 每个链都有一个长期奖励Gt；
- 用St为起点的所有状态转移链的Gt的期望来衡量St的价值。
- V(St)=E[Gt|s=St] 状态与价值函数相伴生。

$$
S_{state}+P_{probability}+R_{reward}+A_{action}
$$

posted @ 2024-05-21 16:11 林每天都要努力阅读(496) 评论(0) 收藏举报

刷新页面返回顶部