PRML第十三章习答案

Chapter 13. Sequential Data

Chapter 13. Sequential Data
- 习题简述
- 习题详解

更新日志（截至20210501）

20210501：添加习题详解和习题 13.25-13.28 的详解
20210127：首次提交，含习题 13.6 的详解

习题简述

马尔可夫链
- 13.1：由概率图说明一阶和二阶马尔可夫性
- 13.2：由联合分布说明一阶和二阶马尔可夫性
隐马尔可夫模型
- 13.3：隐马尔可夫模型的观测变量之间不存在条件独立性，因为均可通过隐变量关联
- 13.4：\(p(x|z,w)\) 的参数估计
- 13.5：用拉格朗日乘子法优化隐马尔可夫模型中隐变量的分布及转移概率
- 13.6：隐马尔可夫模型初始化的重要性
- 13.7：可观测变量为高斯变量的参数估计
- 13.8：可观测变量服从类别分布时的参数估计
- 13.9-13.10：隐马尔可夫模型的条件独立性
- 13.11：两个连续的隐变量的联合分布
- 13.12：数据为多个观察序列下隐马尔可夫模型的参数估计
- 13.13-13.18：用概率图模型的消息传递算法求解隐马尔可夫模型
线性动力系统
- 13.19：已知观测变量的前提下，隐变量的后验分布是高斯分布，若用均值预测，则只需求高斯分布均值，只需优化每个隐变量的边际似然
- 13.20：线性动力系统的隐变量的转移分布
- 13.21-13.23：线性动力系统中间过程推导
- 13.24：带偏置项的线性动力系统
- 特例
  - 13.25：当观测数据独立同分布时，隐状态不随时间改变，线性动力系统的推断退化为高斯分布的后验估计
  - 13.26：若隐状态分布不随时间改变，线性动力系统退化为高斯线性模型的一个特例，即概率 PCA
  - 13.27：如果观测数据无噪声，可直接用当前观测值估计当前隐状态
  - 13.28：若隐变量不随时间改变，则可用观测变量的平均估计当前隐状态
- 13.29：类似隐马尔可夫模型的 reformulation
- 13.30：相邻隐状态的联合分布
- 13.31-13.34：线性动力系统的参数估计

习题详解

Exercise 13.6

Hint.
若 \(\pi_k=0\)，则 \(z_{1k}\equiv 0\)，则 \(\gamma(z_{1k})\equiv 0\)。
若 \(A_{jk}=0\)，则 \(z_{n-1,j}z_{nk} \equiv 0\)，则 \(\xi(z_{n-1,j},z_{nk})\equiv 0\)。

Comment.
本题说明隐马尔可夫模型不应使用全零初始化，否则会得到平凡解。

Exercise 13.25

Hint.
把卡尔曼滤波器视为一个随机过程，其应用于独立同分布数据，相当于一个增量为恒为零的独立增量过程，由于观测变量间的依赖性来源于隐变量间的依赖性，因此隐变量分布退化为不随时间改变的单点分布，即 \(z_n|z_{n-1}\sim\delta(z_n-\mu_0)\)，此设定与习题 13.28 相同。

Solution.
在前述提示的基础上，进一步假设隐变量均值为观测变量均值，并且观测变量各向同性，即 \(x_n|z_n\sim\mathcal{N}(x_n|\mu_n,\sigma^2I)\)。在隐变量退化为与时间无关的单点分布的前提下，\(P_n=V_n\)，因此 \(\mu_n,V_n,K_n\) 间的递推关系如下，

\[\begin{aligned} \mu_n&=(I-K_n)\mu_{n-1}+K_n x_n,\\ V_n&=(I-K_n)V_{n-1},\\ K_n&=V_{n-1}(V_{n-1}+\sigma^2 I)^{-1}, \end{aligned} \]

初值条件为 \(V_0=\sigma_0^2 I\)。计算得，

\[\begin{aligned} K_1&=\frac{1}{1+(\sigma/\sigma_0)^2}I\\ V_1&=\frac{\sigma^2}{1+(\sigma/\sigma_0)^{-2}}I\\ \mu_1&=\frac{(\sigma/\sigma_0)^2\mu_0+x_1}{1+(\sigma/\sigma_0)^2} \end{aligned} \]

进一步验算可猜想

\[\begin{aligned} K_n&=\frac{1}{n+(\sigma/\sigma_0)^2}I\\ V_n&=\frac{\sigma^2}{n+(\sigma/\sigma_0)^{-2}}I\\ \mu_n&=\frac{(\sigma/\sigma_0)^2\mu_0+\sum^{n}_{i=1} x_i}{n+(\sigma/\sigma_0)^2} \end{aligned} \]

下面用归纳法证明，假设上述结论对 \(n\) 成立，对于 \(n+1\)，

\[\begin{aligned} K_{n+1} &=V_n(V_n+\sigma^2 I)^{-1}\\ &=(I+\sigma^2 V_n^{-1})^{-1}\\ &=\frac{1}{(n+1)+(\sigma/\sigma_0)^2}I \end{aligned} \]

\[\begin{aligned} V_{n+1} &=(I-K_{n+1})V_n\\ &=\frac{n+(\sigma/\sigma_0)^2}{(n+1)+(\sigma/\sigma_0)^2}\frac{\sigma^2}{n+(\sigma/\sigma_0)^{-2}}I\\ &=\frac{\sigma^2}{(n+1)+(\sigma/\sigma_0)^{-2}}I \end{aligned} \]

\[\begin{aligned} \mu_{n+1} &=(I-K_{n+1})\mu_n+K_{n+1} x_{n+1}\\ &=\frac{n+(\sigma/\sigma_0)^2}{(n+1)+(\sigma/\sigma_0)^2}\frac{(\sigma/\sigma_0)^2\mu_0+\sum x_n}{n+(\sigma/\sigma_0)^2}+\frac{x_{n+1}}{(n+1)+(\sigma/\sigma_0)^2}\\ &=\frac{(\sigma/\sigma_0)^2\mu_0+\sum^{n+1}_{i=1} x_i}{(n+1)+(\sigma/\sigma_0)^2} \end{aligned} \]

即结论对 \(n+1\) 成立，由归纳法原理，结论对任意自然数成立。

Comment.
卡尔曼滤波器/线性动力系统应用于独立同分布数据时，相当于对高斯分布做后验估计。

Exercise 13.26

Solution.
假设隐状态的分布不随时间改变，进一步假设隐状态服从标准正态分布 \(z_n|z_{n-1}\sim\mathcal{N}(z_n|0,I)\)，此时有 \(P_n=I\)。进一步假设 \(x_n|z_n\) 各向同性，即 \(x_z|z_n\sim\mathcal{N}(x_n|Cz_n,\sigma^2 I)\)。\(\mu_n,V_n,K_n\) 的递推关系如下，

\[\begin{aligned} K_n&=C^T(CC^T+\sigma^2 I)^{-1}\\ \mu_n&=K_n x_n\\ V_n&=I-K_n C \end{aligned} \]

其中

\[\begin{aligned} K_n&=\sigma^{-1}(\sigma^{-1}C)^T((\sigma^{-1}C)(\sigma^{-1}C)^T+I)^{-1}\\ &=\sigma^{-1}\widetilde{C}^T(\widetilde{C}\widetilde{C}^T+I)^{-1}\quad(\widetilde{C}\triangleq\sigma^{-1}C) \end{aligned} \]

注意到 \(\widetilde{C}^T\widetilde{C}\widetilde{C}^T+\widetilde{C}^T=\widetilde{C}^T(\widetilde{C}\widetilde{C}^T+I)=(\widetilde{C}^T\widetilde{C}+I)\widetilde{C}^T\)，故 \(\widetilde{C}^T(\widetilde{C}\widetilde{C}^T+I)^{-1}=(\widetilde{C}^T\widetilde{C}+I)^{-1}\widetilde{C}^{T}\)，故 \(K_n=(C^TC+\sigma^2 I)^{-1}C^T\)。用 \(W\) 替换 \(C\)，记 \(M=W^TW+\sigma^2I\)，则 \(\mu_n=M^{-1}W^T x_n\)。注意到由于没有偏置项，\(\mathbb{E}[x_n]=C\mathbb{z_n}=0\)，故 \(\mu_n=M^{-1}W^T (x_n-\mathbb{E}[x_n])\)，对应中心化之后的概率 PCA 的后验均值。

另一方面，\(V_n=I-C^T(CC^T+\sigma^2 I)^{-1}C=I-\widetilde{C}^T(\widetilde{C}\widetilde{C}^T+I)^{-1}\widetilde{C}\)。在矩阵恒等式 \((A+BD^{-1}C)^{-1}=A^{-1}-A^{-1}B(D+CA^{-1}B)CA^{-1}\) 中，取 \(A=I,B=\widetilde{C}^T,C=\widetilde{C}\)，则有 \(V_n=(I+\widetilde{C}^T\widetilde{C})^{-1}=\sigma^2M^{-1}\)，对应概率 PCA 的后验协方差。

Comment.
假设隐状态分布不随时间改变，则观测值为隐状态经线性映射得到，观测值亦可投影为隐状态，恰好对应概率 PCA。

Exercise 13.27

Hint.
若观测数据无误差，则 \(x_n|z_n\sim\delta(x_n-Cz_n)\)，因为 \(x_n\) 为单点分布，不妨假设 \(C=I\)，相当于令 \(z_n:=Cz_n\)。此时 \(K_n=P_{n-1}C^T(CP_{n-1}C^T+\Sigma)^{-1}=I\)，\(\mu_n=A\mu_{n-1}+K_n(x_n-CA\mu_{n-1})=x_n\)，即观测值为对隐状态的最佳估计。

Comment.
额外的假设 \(C=I\) 是因为该设定下 \(C\) 是冗余参数。

Exercise 13.28

Solution.
若隐状态不随时间改变，则有 \(z_n|z_{n-1}\sim\delta(z_n-c)\)。又 \(x_n\sim\mathcal{N}(x_n|Cz_n,\Sigma)\)，与上题类似，不妨假设 \(C=I\)。易知 \(P_n=V_n\)，则 \(\mu_n, V_n, K_n\) 的递推式如下

\[\begin{aligned} \mu_n&=(I-K_n)\mu_{n-1}+K_n x_n,\\ V_n&=(I-K_n)V_{n-1},\\ K_n&=V_{n-1}(V_{n-1}+\Sigma)^{-1}, \end{aligned} \]

先考虑初值条件，\(K_1=V_0(V_0+\Sigma)^{-1}\)，假设 \(V_0\) 可逆，则 \(K_1=(I+V_0^{-1}\Sigma)^{-1}=I-V_0^{-1}\Sigma+o(V^{-2}_0\Sigma)\)，令 \(\|V_0\|\to\infty\)，则 \(K_1=I\)。\(V_1=(V_0^{-1}\Sigma+o(V^{-2}_0\Sigma))V_0=\Sigma+o(V^{-1}_0\Sigma)\)，令 \(\|V_0\|\to\infty\)，得 \(V_1=\Sigma\)。进一步地，\(\mu_1=x_1\)。

进一步可以算得 \(K_2=\frac{1}{2}I,V_2=(I-\frac{1}{2}I)\Sigma=\frac{1}{2}\Sigma,\mu_2=(I-\frac{1}{2}I)\mu_1+\frac{1}{2}x_2=\frac{1}{2}(x_1+x_2)\)。由此可以猜想 \(K_n=\frac{1}{n}I,V_n=\frac{1}{n}\Sigma,\mu_n=\bar{x}_n\)。

下面用归纳法证明。假设结论对 \(n\) 成立，对于 \(n+1\)，
\(K_{n+1}=\frac{1}{n}\Sigma(\frac{1}{n}\Sigma+\Sigma)^{-1}=\frac{1}{n+1}I\)，\(V_{n+1}=(I-\frac{1}{n+1}I)\frac{1}{n}\Sigma=\frac{1}{n+1}\Sigma\)，\(\mu_{n+1}=(1-\frac{1}{n+1}\Sigma)\bar{x}_n+\frac{1}{n+1}x_{n+1}=\bar{x}_{n+1}\)，即归纳假设对 \(n+1\) 成立。由归纳法原理，结论对任意自然数成立。

Comment.
若隐状态不随时间改变，则可由观测值直接估计隐状态，假设观测值的均值与隐状态的均值相同，则用观测值的样本均值可以很好估计隐状态均值，观测次数越多，估计越准（协方差矩阵的范数越小）。

posted @ 2021-01-29 00:06 Rotopia 阅读(199) 评论(0) 编辑收藏举报

刷新页面返回顶部

Rotopia