初识马尔可夫过程

1.马尔可夫过程(状态+概率)

$$
S_{state}+P_{probability}
$$

定义:具有马尔可夫性质有限随机状态序列S1,S2,... ...

无后效性:马尔可夫性质,只由当前状态决定,与前置状态无关。
$$
P(S_{t+1}|S_t)=P(S_{t+1}|S_1,...,S_t)
$$
状态转移概率:状态之间变化的概率。

例如:晴天和雨天是两个状态,状态转移矩阵为

晴天 雨天
晴天 0.8 0.2
雨天 0.4 0.6

第一列表示今天,第一行表示明天

即:今天是晴天,明天80%是晴天、20%是雨天;今天是雨天,明天40%是晴天、60%是雨天。

马尔可夫过程=状态+状态转移概率。

两个变形

  1. 隐马尔可夫模型=马尔可夫过程+观测+释放概率

image-20240521102855771

隐藏的状态是 晴天和雨天,观察的状态是 人的表情(笑和哭)

如果今天是晴天,人的表情80%是笑和20%是哭;如果今天是雨天,人的表情20%是笑和80%是哭。(释放概率=P(观测状态|隐藏状态))

主要应用:

1)评估问题:已知马尔可夫过程和释放概率,求观测状态。即已知晴雨和释放概率,求人的表情。

2)解码问题:已知观测状态和释放概率,求马尔可夫过程。即已知人的表情和释放概率,求晴雨。

3)学习问题:已知马尔可夫过程和观测状态,求释放概率。即已知晴雨和人的表情,求释放概率。

  1. 马尔可夫奖励过程=马尔可夫过程+奖励R(从状态St转移到St+1的奖励,奖励与状态转移相伴生)

    1. 动作产生不确定的转态转移(状态不同,动作集合也不同,每个动作的执行概率不同)

      • 不同的状态,会有不同的动作集合;
      • 同一状态下,各个动作以概率分布体现;
      • 某状态下的某动作,导致不同的状态转移;

      马尔可夫奖励过程+动作=马尔可夫决策过程

    2. 动作产生确定的状态转移

      动态规划问题:最短路问题中路段成本,即为状态转移奖励。

2. 马尔可夫奖励过程(状态+概率+奖励)

$$
S_{state}+P_{probability}+R_{reward}
$$

  • 即时奖励 Rt+1:与状态转移相伴生,只要发生状态转移,就一定会产生对应的即时奖励;

  • 长期奖励Gt:γ为衰减系数,表示即时奖励在当前的折扣值。长期奖励与状态转移链相互伴生,不同的状态转移链对应不同的长期奖励。
    $$
    G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+...=\sum{∞}_{k=0}{\gammakR_{t+k+1}}
    $$

  • 价值函数V(s):找到与状态相互伴生的量,进而评价状态的质量。

    • 存在由状态St为起点的多条状态转移链;
    • 每个链都有一个长期奖励Gt;
    • 用St为起点的所有状态转移链的Gt的期望来衡量St的价值。
    • V(St)=E[Gt|s=St] 状态与价值函数 相伴生。

3.马尔可夫决策过程(状态+概率+奖励+动作)

$$
S_{state}+P_{probability}+R_{reward}+A_{action}
$$

  • 贝尔曼期望方程:V(St)=E[Rt+1+γV(St+1)|s=St]
  • 动作:不同的动作会产生不同的结果。
  • 策略π(a|s):π
posted @ 2024-05-21 16:11  林每天都要努力  阅读(32)  评论(0编辑  收藏  举报