DataMining-马尔科夫预测

状态：指事物的某种属性所具有的不同特征（客观事物可能出现或存在的状况）。如：商品可能畅销也可能滞销；机器运转可能正常也可能故障等。同一事物不同状态之间必须相互独立:不能同时存在两种状态。客观事物的状态不是固定不变的，它可能处于这种状态，也可能处于那种状态，往往条件变化，状态也会发生变化。如：某种产品在市场上本来是滞销的，但是由于销售渠道变化了，或者消费心理发生了变化等，它便可能变为畅销产品。

例如：
	事物（人）——性别（属性）——男、女（特征）——（两状态）
	事物（人）——大学生年级（属性）——1、2、3、4年级（特征）——（四状态）
	事物（掷色子）——某面朝上（属性）——1、2、3、4、5、6（特征）——（六状态）
	事物（商品）——销售量（属性）——畅销、滞销（特征）——（两状态）

状态变量：用状态变量来表示状态。

\[X_t = \left(\begin{array}{ccc} i = 1,2,3, \ldots ,N \\ t = 1,2,3, \ldots ,N \\ \end{array}\right) \]

它表示随机运动系统，在时刻 $ t \left(\begin{array}{ccc} t = 1,2,3, \ldots \end{array}\right) $，所处的状态为 $ i \left(\begin{array}{ccc} i = 1,2,3, \ldots ,N \end{array}\right) $ 。

1.1.2 状态转移

状态转移：客观事物由一种状态到另一种状态的变化（指事物的状态在一定条件下可能发生的转移）。

例如：
	由于产品质量或替代产品的变化，市场上产品可能由畅销变为滞销。畅销和滞销——可以相互转移状态。
	1、2、3、4年级——不返回状态。其中，毕业为不返回状态。
	男、女——不可相互转移状态。
	助教、讲师、副教授、教授、退休、死亡、（调离、调入）——吸收状态

1.1.3 状态转移概率
- 客观事物可能有 $ E_{1},E_{2},\ldots ,E_{N} $ 共 $n$ 种状态，其中每次只能处于一种状态，则每一状态都具有 $n$ 个转向（包括转向自身），即 $ E_{i}\rightarrow E_{1},E_{i} \rightarrow E_{2},\ldots ,E_{i} \rightarrow E_{N} $ 。
- 由于状态转移是随机的。因此，必须用概率来描述状态转移可能性的大小，将这种转移的可能性用概率描述，就是状态转移概率。
- 概率论中的条件概率：P（A|B）就表达了由状态 B 向状态 A 转移的概率，简称为状态转移概率。
- 对于由状态 $E_{i}$ 转移到状态 $E_{j}$ 的概率，称它为从 i 到 j 的转移概率。记为：$$P_{ij} = P\left(\begin{array}{ccc} E_{j}|E_{i} \end{array}\right) = P\left(\begin{array}{ccc} E_{j} \rightarrow E_{i} \end{array}\right) = P\left(\begin{array}{ccc} x_{n+1}=j | x_{n}=i \end{array}\right)$$它表示由状态 $E_{i}$ 经过一步转移到状态 $E_{j}$ 的概率。

状态转移概率计算：

例子：某地区有甲、乙、丙三家食品厂生产同一种食品，有一千个用户（或购货点），假定在研究期间无新用户加入也无老用户退出，只有用户的转移，已知 2006 年 5 月份有 500 户是甲厂的顾客；400 户是乙厂的顾客；100 户是丙厂的顾客。6 月份，甲厂有 400 户原来的顾客，上月的顾客有 50 户转乙厂，50 户转丙厂；乙厂有 300 户原来的顾客，上月的顾客有 20 户转甲厂，80 户转丙厂；丙厂有 80 户原来的顾客，上月的顾客有 10 户转甲厂，10 户转乙厂。计算其状态转移概率。

解：由题意得 6 月份顾客转移表，如下：

厂名	甲	乙	丙	合计
甲	400	50	50	500
乙	20	300	80	400
丙	10	10	80	100
合计	430	360	210	1000

计算可得：

\[P=\frac{400}{500} \quad P=\frac{50}{500} \quad P=\frac{50}{500} \]

\[P=\frac{20}{400} \quad P=\frac{300}{400} \quad P=\frac{80}{400} \]

\[P=\frac{10}{100} \quad P=\frac{10}{100} \quad P=\frac{80}{100} \]

状态转移概率，如下：

\[P = \left(\begin{array}{ccc} P_{_{_{11}}} & P_{_{_{12}}} & P_{_{_{13}}} \\ P_{_{_{21}}} & P_{_{_{22}}} & P_{_{_{23}}} \\ P_{_{_{31}}} & P_{_{_{32}}} & P_{_{_{33}}} \end{array}\right) = \left(\begin{array}{ccc} 0.8 & 0.1 & 0.1 \\ 0.05 & 0.75 & 0.2 \\ 0.1 & 0.1 & 0.8 \end{array}\right) \]

- 1.1.4 状态转移概率矩阵

状态转移概率矩阵：将事件 $n$ 个状态的转移概率依次排列起来，就构成一个 $N$ 行× $N$ 列的矩阵，这种矩阵就是状态转移概率矩阵。

\[P = \left(\begin{array}{ccc} P_{_{_{11}}} & P_{_{_{12}}} & {\cdots} \quad P_{_{_{1N}}} \\ P_{_{_{21}}} & P_{_{_{22}}} & {\cdots} \quad P_{_{_{2N}}} \\ \quad {\cdots} \quad & \quad {\cdots} & \quad {\cdots} \\ P_{_{_{N1}}} & P_{_{_{N2}}} & {\cdots} \quad P_{_{_{NN}}} \end{array}\right) \]

通常称矩阵 $P$ 为状态转移概率矩阵，没有特别说明步数时，一般均为一步转移概率矩阵。矩阵中的每一行称之为概率向量。

状态转移概率矩阵具有如下特征：

\[(1) \quad 0 \leq P_{ij} \leq 1 \quad i,j=1,2,\ldots,N \]

\[(2) \quad \sum\limits_{n=0}^N P_{ij}=1 \quad i,j=1,2,\ldots, N \]

状态转移概率的估算：

估算方法：

【1】主观概率法（一般缺乏历史统计资料或资料不全情况下使用）。

【2】统计估算法。

例子1：设味精市场的销售记录共有 6 年 24 个季度的数据，见表。求味精销售转移概率矩阵。

<table style='width:100%; font-size:8pt;' border=1><tr style='font-weight: bold;text-align:left;font-size:8pt;color:#990000'><th>季度</th><th>销售</th><th>状态</th></tr><tr><td> 1</td><td>畅</td><td>1</td></tr><tr><td> 2</td><td>畅</td><td>1</td></tr><tr><td> 3</td><td>滞</td><td>2</td></tr><tr><td> 4</td><td>畅</td><td>1</td></tr><tr><td> 5</td><td>滞</td><td>2</td></tr><tr><td> 6</td><td>滞</td><td>2</td></tr><tr><td> 7</td><td>畅</td><td>1</td></tr><tr><td> 8</td><td>畅</td><td>1</td></tr><tr><td> 9</td><td>畅</td><td>1</td></tr><tr><td>10</td><td>滞</td><td>2</td></tr><tr><td>11</td><td>畅</td><td>1</td></tr><tr><td>12</td><td>滞</td><td>2</td></tr><tr><td>13</td><td>畅</td><td>1</td></tr><tr><td>14</td><td>畅</td><td>1</td></tr><tr><td>15</td><td>滞</td><td>2</td></tr><tr><td>16</td><td>滞</td><td>2</td></tr><tr><td>17</td><td>畅</td><td>1</td></tr><tr><td>18</td><td>畅</td><td>1</td></tr><tr><td>19</td><td>滞</td><td>2</td></tr><tr><td>20</td><td>畅</td><td>1</td></tr><tr><td>21</td><td>滞</td><td>2</td></tr><tr><td>22</td><td>畅</td><td>1</td></tr><tr><td>23</td><td>畅</td><td>1</td></tr><tr><td>24</td><td>畅</td><td>1</td></tr></table>

注：用"1"表示畅销；用"2"表示滞销
共$24$个季度数据，其中有$15$个季度畅销，$9$个季度滞销，现分别统计出:连续畅销、由畅转滞、由滞转畅和连续滞销的次数。
以 $p_{11}$ 表示连续畅销的可能性，以频率代替概率，得：

\[P_{11}=\frac{7}{15-1}=50\% \]

分子 $7$ 是表中连续出现畅销的次数，分母 $15$ 是表中出现畅销的次数，因为第 $24$ 季度是畅销，无后续记录，故减 $1$。

以 $p_{12}$ 表示由畅销转入滞销的可能性，得：

\[P_{12}=\frac{7}{15-1}=50\% \]

分子 $7$ 是表中由畅销转入滞销的次数。

以 $p_{21}$ 表示由滞销转入畅销的可能性，得：

\[P_{21}=\frac{7}{9}=78\% \]

分子 $7$ 是表中由滞销转入畅销的次数，分母数 $9$ 是表中出现滞销的次数。

以 $p_{22}$ 表示连续滞销的可能性，得：

\[P_{22}=\frac{2}{9}=22\% \]

分子 $2$ 是表中连续出现滞销的次数。

综上所述，得销售状态转移概率矩阵为：

\[P= \left(\begin{array}{ccc} p_{_{_{11}}} & p_{_{_{12}}} \\ p_{_{_{21}}} & p_{_{_{22}}} \end{array}\right) = \left(\begin{array}{ccc} 0.5 & 0.5 \\ 0.78 & 0.22 \end{array}\right) \]

例子2：考虑某地区农业收成变化的3个状态，即“丰收”、“平收”和“歉收”。记E1为“丰收”状态，E2为“平收”状态，E3为“歉收”状态。下表给出了该地区1960—1999年期间农业收成的状态变化情况。试计算该地区农业收成变化的状态转移概率矩阵。

<table style='width:100%; font-size:8pt;' border=1><tr style='font-weight: bold;text-align:left;font-size:8pt;color:#990000'><th>序号</th><th>年份</th><th>状态</th></tr><tr><td> 1</td><td>1960</td><td>E1</td></tr><tr><td> 2</td><td>1961</td><td>E1</td></tr><tr><td> 3</td><td>1962</td><td>E2</td></tr><tr><td> 4</td><td>1963</td><td>E3</td></tr><tr><td> 5</td><td>1964</td><td>E2</td></tr><tr><td> 6</td><td>1965</td><td>E1</td></tr><tr><td> 7</td><td>1966</td><td>E3</td></tr><tr><td> 8</td><td>1967</td><td>E2</td></tr><tr><td> 9</td><td>1968</td><td>E1</td></tr><tr><td>10</td><td>1969</td><td>E2</td></tr><tr><td>11</td><td>1970</td><td>E3</td></tr><tr><td>12</td><td>1971</td><td>E1</td></tr><tr><td>13</td><td>1972</td><td>E2</td></tr><tr><td>14</td><td>1973</td><td>E3</td></tr><tr><td>15</td><td>1974</td><td>E1</td></tr><tr><td>16</td><td>1975</td><td>E2</td></tr><tr><td>17</td><td>1976</td><td>E1</td></tr><tr><td>18</td><td>1977</td><td>E3</td></tr><tr><td>19</td><td>1978</td><td>E3</td></tr><tr><td>20</td><td>1979</td><td>E1</td></tr><tr><td>21</td><td>1980</td><td>E3</td></tr><tr><td>22</td><td>1981</td><td>E3</td></tr><tr><td>23</td><td>1982</td><td>E2</td></tr><tr><td>24</td><td>1983</td><td>E1</td></tr><tr><td>25</td><td>1984</td><td>E1</td></tr><tr><td>26</td><td>1985</td><td>E3</td></tr><tr><td>27</td><td>1986</td><td>E2</td></tr><tr><td>28</td><td>1987</td><td>E2</td></tr><tr><td>29</td><td>1988</td><td>E1</td></tr><tr><td>30</td><td>1989</td><td>E2</td></tr><tr><td>31</td><td>1990</td><td>E1</td></tr><tr><td>32</td><td>1991</td><td>E3</td></tr><tr><td>33</td><td>1992</td><td>E2</td></tr><tr><td>34</td><td>1993</td><td>E1</td></tr><tr><td>35</td><td>1994</td><td>E1</td></tr><tr><td>36</td><td>1995</td><td>E2</td></tr><tr><td>37</td><td>1996</td><td>E2</td></tr><tr><td>38</td><td>1997</td><td>E3</td></tr><tr><td>39</td><td>1998</td><td>E1</td></tr><tr><td>40</td><td>1999</td><td>E2</td></tr></table>

(1) 计算：从上表可以知道，在$15$个从$E1$出发（转移出去）的状态中:

有$3$个是从$E1$转移到$E1$的（即1→2，24→25，34→35）；

有$7$个是从$E1$转移到$E2$的（即2→3，9→10，12→13，15→16，29→30，35→36，39→40）；

有$5$个是从$E1$转移到$E3$的（即6→7，17→18，20→21，25→26，31→32）；

所以,

\[P_{11}=P(E_{1} \rightarrow E_{1}) = P(E_{1}|E_{1}) = \frac{3}{15} = 0.2000 \]

\[P_{12}=P(E_{1} \rightarrow E_{2}) = P(E_{2}|E_{1}) = \frac{7}{15} = 0.4667 \]

\[P_{13}=P(E_{1} \rightarrow E_{3}) = P(E_{3}|E_{1}) = \frac{5}{15} = 0.3333 \]

同理可得,

\[P_{21}=P(E_{2} \rightarrow E_{1}) = P(E_{1}|E_{2}) = \frac{7}{13} = 0.5385 \]

\[P_{22}=P(E_{2} \rightarrow E_{2}) = P(E_{2}|E_{2}) = \frac{2}{13} = 0.1538 \]

\[P_{23}=P(E_{2} \rightarrow E_{3}) = P(E_{3}|E_{2}) = \frac{4}{13} = 0.3077 \]

\[P_{31}=P(E_{3} \rightarrow E_{1}) = P(E_{1}|E_{3}) = \frac{4}{11} = 0.3636 \]

\[P_{32}=P(E_{3} \rightarrow E_{2}) = P(E_{2}|E_{3}) = \frac{5}{11} = 0.4545 \]

\[P_{33}=P(E_{3} \rightarrow E_{3}) = P(E_{3}|E_{3}) = \frac{2}{11} = 0.1818 \]

(2)结论：该地区农业收成变化的状态转移概率矩阵为： $$P=\left(\begin{array}{ccc} 0.2000 & 0.4667 & 0.3333 \\ 0.5385 & 0.1538 & 0.3077 \\ 0.3636 & 0.4545 & 0.1818 \end{array}\right) $$

- 1.1.5 多步状态转移概率矩阵

状态转移概率矩阵完全描述了所研究对象的变化过程。正如前面所指出的，上述矩阵为一步转移概率矩阵。对于多步转移概率矩阵，可按如下定义解释。

定义若系统在时刻 $t_{_{0}}$ 处于状态 $i$，经过 $n$ 步转移，在时刻 $t_{_{n}}$ 处于状态 $j$ 。那么，对这种转移的可能性的数量描述称为 $n$ 步转移概率。记为:

\[P(x_{_{n}}=j|x_{_{0}}=i)=P_{_{ij}}^{(n)} \]

并令，

\[P^{(n)} = \left(\begin{array}{ccc} P{{_{11}}}^{(n)} & P{{_{12}}}^{(n)} & {\cdots} \quad P{{_{1N}}}^{(n)} \\ P{{_{21}}}^{(n)} & P{{_{22}}}^{(n)} & {\cdots} \quad P{{_{2N}}}^{(n)} \\ \quad {\cdots} \quad & \quad {\cdots} & \quad {\cdots} \\ P{{_{N1}}}^{(n)} & P{{_{N2}}}^{(n)} & {\cdots} \quad P{{_{NN}}}^{(n)} \end{array}\right) \]

称 $P^{(n)}$ 为 $n$ 步转移概率矩阵。

多步转移概率矩阵，除具有一步转移概率矩阵的性质外，还具有以下的性质：

(1) $P^{(n)}$=$P^{(n-1)}P$

(2) $P^{(n)}$=$P^{n}$

多步状态转移概率矩阵的估算：

例：某经济系统有三种状态 $E_{1}$，$E_{2}$，$E_{3}$ （如畅销、一般、滞销），系统地转移情况见下表，试求系统的二步状态转移概率矩阵。

系统所处状态	E1	E2	E3
E1	21	7	14
E2	16	8	12
E3	10	8	2

注：[横向标题]表示系统下步所处状态；[纵向标题]表示系统本步所处状态；
解：首先是写出一步状态转移

\[P^{(1)} = \left(\begin{array}{ccc} 0.500 & 0.167 & 0.333 \\ 0.444 & 0.222 & 0.334 \\ 0.500 & 0.400 & 0.100 \end{array}\right) \]

二步转移概率矩阵可由一步转移概率矩阵通过公式 $P^{(n)}=P^n$ 计算得：

\[P^{(2)} = P^2 = \left(\begin{array}{ccc} 0.500 & 0.167 & 0.333 \\ 0.444 & 0.222 & 0.334 \\ 0.500 & 0.400 & 0.100 \end{array}\right) ^2 = \left(\begin{array}{ccc} 0.491 & 0.254 & 0.255 \\ 0.498 & 0.257 & 0.255 \\ 0.478 & 0.212 & 0.310 \end{array}\right) \]

- 1.1.6 初始状态概率向量

记$t_{0}$为过程的开始时刻，$P_{i}(0)={\{(X_{0}=X(t_{0})=i)\}}$，则称：$P(0)=(p_{_{1}}(0),p_{_{2}}(0),\cdots,p_{_{N}}(0))$为初始状态概率向量。

已知马尔科夫链的转移矩阵$P^{(k)}=(p_{ij}^{(k)})$以及初始状态概率向量$P(0)$，则任一时刻的状态概率分布也就确定了。对 $k\geq1$ ，记 $p_{i}(k)=P{\{X_{k}=i}\}$ 则由全概率公式有：

\[p_{i}(k)=\sum\limits_{j=1}^N {p_{j}(0)} \cdot {p_{_{ji}}^{(k)}},\qquad i=1,2,\cdots,N; k\geq1 \]

若记向量 $P(k)=(p_{1}(k),p_{2}(k),\cdots,p_{N}(k))$，则上式可写为：

\[P(k)=P(0)P^{(k)}=P(0)P^{k} \]

由此可得

\[P(k)=P(k-1)P \]

初始状态概率向量的估算：

例子：机床运行存在正常和故障两种状态。由于出现故障带有随机性，故可将机床运行看作一个随时间变化的随机系统。机床以后的状态只与其以前的状态有关，而与过去的状态无关(有无后效性)。因此，机床的运行可看作马尔科夫链。如机床运行过程中出现故障，表示为从状态 1 转移到状态2；处于故障状态的机床经维修恢复到正常状态即从状态 2转移到状态1。现以 $1$ 个月为时间单位，经统计知：从某月到下月机床出现故障的概率为$0.2$，即 $p_{_{12}} = 0.2$ 。保持正常状态的概率为为 $p_{_{11}} = 0.8$ 。在这一时间，故障机床经维修返回正常状态的概率为 $0.9$ ，即 $p_{_{21}} = 0.9$ 。不能修好的概率为 $p_{_{22}} = 0.1$ 。
由机床的一步转移概率得，状态转移概率矩阵： $$P=\left(\begin{array}{ccc} p_{_{_{11}}} & p_{_{_{12}}} \\ p_{_{_{21}}} & p_{_{_{22}}} \end{array}\right)= \left(\begin{array}{ccc} 0.8 & 0.2 \\ 0.9 & 0.1 \end{array}\right)$$

问题：若已知本月机床的状态向量 $P(0)=(0.85, 0.15)$，要求预测机床两个月后的状态。

(1) 求出两步转移概率矩阵

\[P^{(2)}=P^2=\left(\begin{array}{ccc} 0.8 & 0.2 \\ 0.9 & 0.1 \end{array}\right)^2 = \left(\begin{array}{ccc} 0.82 & 0.18 \\ 0.81 & 0.19 \end{array}\right) \]

(2) 预测：两个月后的状态向量

\[P(2)=P(0)P^2=(0.85 \quad 0.15) \left(\begin{array}{ccc} 0.8 & 0.2 \\ 0.9 & 0.1 \end{array}\right)^2 = (0.8185 \quad 0.18155) \]

2)理论简介

状态转移概率矩阵具有如下特征：

\[(1) \quad 0 \leq P_{ij} \leq 1 \quad i,j=1,2,\ldots,N \]

\[(2) \quad \sum\limits_{n=0}^N P_{ij}=1 \quad i,j=1,2,\ldots, N \]

多步转移概率矩阵（具有一步转移概率矩阵的性质），还具有以下性质：

\[(1) \quad P^{(n)}=P^{(n-1)}P \]

\[(2) \quad P^{(n)}=P^{n} \]

平稳分布：

如存在非零向量$X=(x_{1}, x_{2}, \ldots, x_{N})$，使得：

\[XP=X \]

其中：$P$为概率矩阵。则称$X$为$P$的固定概率向量。

特别地，设$X=(x_{1}, x_{2}, \ldots, x_{N})$为状态概率向量，$P$为状态转移概率矩阵，若 $XP=X$ 即：$$\sum\limits_{k=1}^N x_{i}p_{{ij}} = x \quad j=1,2,3,\ldots,N$$称$X$为该马尔科夫链的一个平稳分布。

1) 若随机过程某时刻的状态概率向量 $P(k)$ 为平稳分布，则称过程处于平衡状态。 $（X P = X）$

2) 一旦过程处于平衡状态，则经过一步或多步状态转移之后，其状态概率分布保持不变，也就是说，过程一旦处于平衡状态后将永远处于平衡状态。

3) 对于所讨论的状态有限（即$N$个状态）的马尔可夫链，平稳分布必定存在。

4) 特别地，当状态转移矩阵为正规概率矩阵时，平稳分布唯一。

正规概率矩阵

定义1：如果 $P$ 为概率矩阵，且存在 $m>0$，使 $P^m$ 中诸元素皆非负非零。则称 $P$ 为正规概率矩阵。

例如：

\[(1) \quad P_{1}=\left(\begin{array}{ccc} 0.4 & 0.6 \\ 0.6 & 0.4 \end{array}\right) \quad {and} \quad P_{2}=\left(\begin{array}{ccc} 0 & 1 \\ 0.4 & 0.6 \end{array}\right) \]

均为正规概率矩阵。

$P_{1}$为正规概率矩阵是明显的$（m = 1）$。

$P_{2}$是正规概率矩阵也易于论证：

\[(2) \quad P_{2}^2=\left(\begin{array}{ccc} 0 & 1 \\ 0.4 & 0.6 \end{array}\right) \left(\begin{array}{ccc} 0 & 1 \\ 0.4 & 0.6 \end{array}\right) = \left(\begin{array}{ccc} 0.4 & 0.6 \\ 0.24 & 0.76 \end{array}\right) \]

即存在$（m = 2）$，使 $P^{2}$ 的元素皆非负非零。

\[(3) \quad P_{1}=\left(\begin{array}{ccc} 1 & 0 \\ 0.5 & 0.5 \end{array}\right) \]

是非正规概率矩阵。

*) 正规概率矩阵的这一性质很有实用价值。因为在市场占有率是达到平稳分布时，顾客（或用户）的流动将对市场占有率不起影响。即各市场主体丧失的顾客（或用户）与争取到的顾客相抵消。

稳态分布：

例：甲乙丙三个食品厂顾客的 $32$ 步转移概率

\[P^{32} = \left(\begin{array}{ccc} P_{_{_{11}}} & P_{_{_{12}}} & P_{_{_{13}}} \\ P_{_{_{21}}} & P_{_{_{22}}} & P_{_{_{23}}} \\ P_{_{_{31}}} & P_{_{_{32}}} & P_{_{_{33}}} \end{array}\right)^{32} = \left(\begin{array}{ccc} 0.8 & 0.1 & 0.1 \\ 0.05 & 0.75 & 0.2 \\ 0.1 & 0.1 & 0.8 \end{array}\right)^{32} = \left(\begin{array}{ccc} 0.286 & 0.286 & 0.492 \\ 0.286 & 0.286 & 0.492 \\ 0.286 & 0.286 & 0.492 \end{array}\right) \left(\begin{array}{ccc} 0.286 & 0.286 & 0.492 \\ 0.286 & 0.286 & 0.492 \\ 0.286 & 0.286 & 0.492 \end{array}\right) = \left(\begin{array}{ccc} 0.286 & 0.286 & 0.492 \\ 0.286 & 0.286 & 0.492 \\ 0.286 & 0.286 & 0.492 \end{array}\right) \]

可以看到每一列都有相同的值。这说明不管初始状态三个食品厂占有多少顾客，经过$32$月之后处于状态 $j$ 的概率都是相同的。即：经过多次转移之后，系统存在一个处于状态 $j$ 的有限概率，此概率与系统原始状态无关。

对概率向量$ \pi = (\pi_{1}, \pi_{2}, \pi_{3}, \ldots,\pi_{N})$，如对任意的 $i, j \in S$：

\[\lim_{m\to +\infty} P_{ij}^{(m)}=\pi_{j} \]

则称 $ \pi $ 为稳态分布。

此时，不管初始状态概率向量如何，均有：

\[\lim_{m\to +\infty} P_{j}^{(m)}=\lim_{m\to +\infty} \sum\limits_{k=1}^N p_{i}(0)p_{ij}^{(m)}= \sum\limits_{k=1}^N p_{i}(0)\pi_{j} =\pi_{j} \]

{or}

\[\lim_{m\to +\infty} P_{j}^{(m)}=\lim_{m\to +\infty}(p_{_{1}}(m), p_{_{2}}(m), \ldots,p_{_{N}}(m))=\pi_{j} \]

这也是称 $ \pi $ 为稳态分布的理由。

设存在稳态分布 $ \pi = (\pi_{1}, \pi_{2}, \pi_{3}, \ldots,\pi_{N})$，则由于下式恒成立：

\[P(k)=P(k-1)P \]

令$k→\infty$就得:

\[\pi=\pi P \]

A：即有限状态马尔可夫链的稳态分布如存在，那么它也是平稳分布。

B：当马尔科夫链的状态转移概率矩阵为正规概率矩阵时稳态分布存在，且稳态分布和平稳分布相同且均唯一。

3)马尔可夫链预测法步骤

马尔可夫链预测方法的最简单类型是预测下期最可能出现的状态，步骤如下：

第一步：划分预测对象所出现的状态。从预测目的出发，考虑决策需要来划分现象所处的状态。

第二步：计算初始概率。据实际问题分析历史资料所得的状态概率称为初始概率。

第三步：计算状态转移概率。

第四步：根据转移概率进行预测。

由状态转移概率矩阵$P$：如果目前预测对象处于状态$E_{i}$，这时 $P_{ij}$ 就描述了目前状态 $E_{i}$ 在未来将转向状态 $E_{j}（j =1，2，…，N）$的可能性。按最大可能性作为选择原则：选择$（P_{j1}，P_{j2}，…，P_{jN}）$中最大者为预测结果。

4)马尔可夫链的应用

一、市场占有率

例1：某城市为调查本地厂家生产的香皂在当地市场的销售状况，在几家大商场对顾客进行了抽样调查，调查结果如下：（I）调查人数1000人，其中购买本地产香皂（A）320人，上海产香皂（B）458人，其它牌号（C）222人；（II）顾客转移情况：

【A转移： A-A 240 A-B 138 A-C 43】

【B转移： B-A 64 B-B 285 B-C 14】

【C转移： C-A 16 C-B 35 C-C 165】

试预测该城市明年香皂市场占有情况。

解：（1）初始状态矩阵

状态	A	B	C	∑
发生次数	320	458	222	1OOO

\[q=(0.32, 0.458, 0.222) \]

(2)状态转移矩阵的统计

	A	B	C	∑
A	240	138	43	421
B	64	285	14	363
C	16	35	165	216

\[P=\left(\begin{array}{ccc} 0.5701 & 0.3278 & 0.1021 \\ 0.1764 & 0.7851 & 0.0385 \\ 0.0741 & 0.1620 & 0.7639 \end{array}\right) \]

(3)预测

明年K=1。

\[S(1) = (0.32， 0.458， 0.222) * \left(\begin{array}{ccc} 0.5701 & 0.3278 & 0.1021 \\ 0.1764 & 0.7851 & 0.0385 \\ 0.0741 & 0.1620 & 0.7639 \end{array}\right) = (0.2797， 0.5004， 0.2199) \]

即，明年本地香皂市场占有率为27.97%，比今年减少4.03%；明年上海香皂市场占有率50.04%，比今年上升4.24%，明年其它牌号香皂市场占有率为21.99%，比今年减少0.21%。

例2：东南亚各国行销上海、日本和香港三种味精，要预测在未来若干个月以后的市场占有情况。具体步骤4：

第一步：进行市场调查

１、目前市场占有情况（顾客买沪、日、港味精的的百分比）。

结果：上海味精的占$40%$、买日、港的各占$30%$，$（40%、30%、30%）$称为目前市场的占有分布或称初始分布。

2、查清顾客的流动情况，结果如下：

1.上月买上海味精的顾客，本月仍有40%，各有30%转向买本和港味精。

2.上月买日本味精顾客，本月有60%转向买上海味精，30%仍买日本味精，10%转向香港味精。

3.上月买香港味精的顾客，本月有60%转向买上海味精，10%转向买日本味精，30%仍买香港味精。

第二步：建立数学模型

为运算方便，以1、2、3分别代表上海、日本、香港味精，根据市场调查的结果，得到顾客购买味精的流动情况表。

	上海	日本	香港
上海	40%	30%	30%
日本	60%	30%	10%
香港	60%	10%	30%

\[P = \left(\begin{array}{ccc} P_{_{_{11}}} & P_{_{_{12}}} & P_{_{_{13}}} \\ P_{_{_{21}}} & P_{_{_{22}}} & P_{_{_{23}}} \\ P_{_{_{31}}} & P_{_{_{32}}} & P_{_{_{33}}} \end{array}\right) = \left(\begin{array}{ccc} 0.4 & 0.3 & 0.3 \\ 0.6 & 0.3 & 0.1 \\ 0.6 & 0.1 & 0.3 \end{array}\right) \]

第三步：进行预测

设初始市场占有的分布是$（p_{1}, p_{2}, p_{3}）=（0.4, 0.3, 0.3）$，三个月以后的市场占有分布是$（p_{1}{(3)}, p_{2}{(3)}, p_{3}{(3)}）$，则预测的公式是：

\[(p_{1}{(3)}, p_{2}{(3)}, p_{3}{(3)})=(p_{1}, p_{2}, p_{3}) \left(\begin{array}{ccc} P_{_{_{11}}}^{(3)} & P_{_{_{12}}}^{(3)} & P_{_{_{13}}}^{(3)} \\ P_{_{_{21}}}^{(3)} & P_{_{_{22}}}^{(3)} & P_{_{_{23}}}^{(3)} \\ P_{_{_{31}}}^{(3)} & P_{_{_{32}}}^{(3)} & P_{_{_{33}}}^{(3)} \end{array}\right) \]

\[P(3)=(0.4 \quad 0.3 \quad 0.3) \left(\begin{array}{ccc} 0.4 & 0.3 & 0.3 \\ 0.6 & 0.3 & 0.1 \\ 0.6 & 0.1 & 0.3 \end{array}\right)^3 =(0.5008 \quad 0.2496 \quad 0.2496) \]

$P_{1}(3)$（三月后沪味精的市场占有率）：$P_{1}(3)=0.5008 $ ，同理，三月后日、港味精的市场占有率：$P_{2}(3)=0.2496 \qquad P_{3}(3)=0.2496$ 。

经过$n$个月以后的市场占有率：

\[(p_{1}{(n)}, p_{2}{(n)}, p_{3}{(n)})=(p_{1}, p_{2}, p_{3}) \left(\begin{array}{ccc} P_{_{_{11}}}^{(n)} & P_{_{_{12}}}^{(n)} & P_{_{_{13}}}^{(n)} \\ P_{_{_{21}}}^{(n)} & P_{_{_{22}}}^{(n)} & P_{_{_{23}}}^{(n)} \\ P_{_{_{31}}}^{(n)} & P_{_{_{32}}}^{(n)} & P_{_{_{33}}}^{(n)} \end{array}\right) =(p_{1}, p_{2}, p_{3})\left(\begin{array}{ccc} P_{_{_{11}}} & P_{_{_{12}}} & P_{_{_{13}}} \\ P_{_{_{21}}} & P_{_{_{22}}} & P_{_{_{23}}} \\ P_{_{_{31}}} & P_{_{_{32}}} & P_{_{_{33}}} \end{array}\right)^n \]

如果市场顾客流动趋势长期稳定下去，则经过一段时期以后的市场占有率将出现稳定的平衡状态。所谓稳定的市场平衡状态，就是顾客的流动，将对市场占有率不起影响，即在顾客流动过程中，各牌号产品丧失的顾客将与其争取到的顾客抵消。

第四步：预测长期的市场占有率

由一步转移概率矩阵 $P$ 是正规概率矩阵。所以，长期的市场占有率即为平衡状态下的市场占有率，亦即马尔可夫链的平稳分布。

设长期市场市场占有率为：

\[X=(x_{1} \quad x_{2} \quad x_{3}) \]

解：

\[(1) \quad (x_{1} \quad x_{2} \quad x_{3}) \left(\begin{array}{ccc} 0.4 & 0.3 & 0.3 \\ 0.6 & 0.3 & 0.1 \\ 0.6 & 0.1 & 0.3 \end{array}\right)=(x_{1} \quad x_{2} \quad x_{3}) \]

\[(2) \quad x_{1} + x_{2} + x_{3} = 1 \]

得：

\[X=(x_{1} \quad x_{2} \quad x_{3})=(0.5 \quad 0.25 \quad 0.25) \]

二、人力资源预测

例：某高校教师状态分为5类：助教、讲师、副教授、教授、流失及退休。目前状态(550人)：

\[P(0)=(135 \quad 240 \quad 115 \quad 60 \quad 0) \]

根据历史资料：

\[P(0)=\left(\begin{array}{ccccc} 0.6 & 0.4 & 0 & 0 & 0 \\ 0 & 0.6 & 0.25 & 0 & 0.15 \\ 0 & 0 & 0.55 & 0.21 & 0.24 \\ 0 & 0 & 0 & 0.8 & 0.2 \\ 0 & 0 & 0 & 0 & 1 \end{array}\right) \]

试分析三年后教师结构以及三年内为保持编制不变应进多少研究生充实教师队伍？

一年后人员分布：

\[P(1)=P(0)*P=(81 \quad 198 \quad 123 \quad 72 \quad 76) \]

要保持 $550$ 人的总编制，流失 $76$ 人，故第一年应进 $76$ 位新教师。

\[\bar{P}(1)=(81+76 \quad 198 \quad 123 \quad 72 \quad 0) \]

第二年：

\[P(2)=\bar{P}(1)*P=(94 \quad 182 \quad 117 \quad 83 \quad 74) \]

要保持 $550$ 人的总编制，流失 $74$ 人，故第二年应进 $74$ 位新教师。

\[\bar{P}(2)=(94+74 \quad 182 \quad 117 \quad 83 \quad 0) \]

第三年：

\[P(3)=\bar{P}(2)*P=(101 \quad 176 \quad 111 \quad 91 \quad 72) \]

要保持 $550$ 人的总编制，流失 $72$ 人，故第三年应进 $72$ 位新教师。

在第三年年底，人员结构为：

\[\bar{P}(3)=(173 \quad 176 \quad 111 \quad 91 \quad 0)　 \]

思考题：某高校为编制师生发展计划，需要预测未来教师的构成比例。该校教师队伍的构成可划分为教辅、助教、讲师、副教授、教授、退休与自然减员（流入、流出省略）。1987年该校教师队伍构成如下表所列：

*某校1987年教师队伍的构成*
状态	教辅	助教	讲师	副教授	教授
发生次数	80	412	475	138	42

根据历史统计资料分析和教师队伍建设规划，计划每年新增教师100名，其中大学本科80人，研究生20人。本科生一年后转助教，研究生入校直接转助教。

*该校教师晋升规划如下表*
	教辅	助教	讲师	副教授	教授	退休与减员
教辅	0.1	0.9	0.1	0.0	0.0	0.0
助教	0.0	0.7	0.3	0.0	0.0	0.0
讲师	0.0	0.0	0.6	0.3	0.0	0.1
副教授	0.0	0.0	0.0	0.7	0.1	0.2
教授	0.0	0.0	0.0	0.0	0.6	0.4
退休与减员	0.0	0.0	0.0	0.0	0.0	1.0

试预测1988-1990年该校教师队伍构成情况？

三、铁路公路运输预测

由于公路运输的发展，大量的短途客流由铁路转向公路。历年市场调查结果显示，某铁路局发现今年比上年相比有如下规律：原铁路客流有85%仍由铁路运输，有15%转由公路运输，原公路运输的客流有95%仍由公路运输，有5%转由铁路运输。已知去年公、铁客运量合计为12000万人，其中铁路10000万人，公路2000万人。预测明年总客运量为18000万人。运输市场符合马氏链模型假定。试预测明年铁、公路客运市场占有率各是多少？客运量是多少？最后发展趋势如何？

计算去年铁路、公路客运市场占有率

将旅客由铁路运输视为状态1，由公路运输视作状态2，则铁、公占有率就是处于两种状态的概率，分别记作$a_{1}, a_{2}$。

\[a_{1}=\frac{10000}{12000}=0.83 \quad a_{2}=\frac{2000}{12000}=0.17 \]

以去年作为初始状态，则初始状态概率向量

\[A(0)=(a_{1}(0), a_{2}(0))=(0.83, 0.17) \]

建立状态转移矩阵P

\[P=\left(\begin{array}{ccc} 0.85 & 0.15 \\ 0.05 & 0.95 \end{array}\right) \]

预测明年铁、公路客运市场占有率

\[A(2)=(a_{1}(2), a_{2}(2))=A(0)P^2= (0.83, 0.17) \left(\begin{array}{ccc} 0.85 & 0.15 \\ 0.05 & 0.95 \end{array}\right)^2=(0.62,0.38) \]

预测明年铁、公路客运量

明年铁路客运量=$18000\times0.62=11160$(万人)

明年公路客运量=$18000\times0.38=6840$(万人)

预测最后发展趋势

\[\lim_{k\to \infty} P^{k}=\left(\begin{array}{ccc} 0.25 & 0.75 \\ 0.25 & 0.75 \end{array}\right) \]

这表明，越往后，铁路客运市场占有率越低，最后稳定在$25%$左右，而公路稳定在$75%$左右。可见铁路面临的形势非常严峻。

四、狡兔三窟与预测狩猎问题

思考题：（出洞统计）现有某人观察兔子在三个连通的洞穴之间出洞情况 100 次，其中洞穴A出来30次，B 50 次，C 20次，相邻出来统计情况如下：

	A	B	C	∑
A	12	24	4	40
B	6	16	3	25
C	12	20	2	34
∑	30	60	9	99

初始状态矩阵的统计

状态	1	2	3	……	N	∑
发生次数	$A_{1}$	$A_{2}$	$A_{3}$	……	$A_{N}$	A

{绝对数模型} $$q = ( A_{1} \quad A_{2} \quad A_{3} \quad \ldots \quad A_{n})$$ {相对数模型} $$q = ( A_{1}/A \quad A_{2}/A \quad A_{3}/A \quad \ldots \quad A_{n}/A)$$

其中，$A_{1}/A + A_{2}/A + A_{3}/A + \ldots + A_{n}/A = 1$

2. 状态转移矩阵的统计？

posted @ 2017-05-14 21:54 银河统计阅读(4211) 评论(1) 收藏举报

银河统计

哈尔滨商业大学银河统计工作室

DataMining-马尔科夫预测

马尔科夫预测

目录概览

1.1 基本概念

正规概率矩阵