PRML第十三章习答案
Chapter 13. Sequential Data
更新日志(截至20210501)
- 20210501:添加习题详解和习题 13.25-13.28 的详解
- 20210127:首次提交,含习题 13.6 的详解
习题简述
- 马尔可夫链
- 13.1:由概率图说明一阶和二阶马尔可夫性
- 13.2:由联合分布说明一阶和二阶马尔可夫性
- 隐马尔可夫模型
- 13.3:隐马尔可夫模型的观测变量之间不存在条件独立性,因为均可通过隐变量关联
- 13.4:\(p(x|z,w)\) 的参数估计
- 13.5:用拉格朗日乘子法优化隐马尔可夫模型中隐变量的分布及转移概率
- 13.6:隐马尔可夫模型初始化的重要性
- 13.7:可观测变量为高斯变量的参数估计
- 13.8:可观测变量服从类别分布时的参数估计
- 13.9-13.10:隐马尔可夫模型的条件独立性
- 13.11:两个连续的隐变量的联合分布
- 13.12:数据为多个观察序列下隐马尔可夫模型的参数估计
- 13.13-13.18:用概率图模型的消息传递算法求解隐马尔可夫模型
- 线性动力系统
- 13.19:已知观测变量的前提下,隐变量的后验分布是高斯分布,若用均值预测,则只需求高斯分布均值,只需优化每个隐变量的边际似然
- 13.20:线性动力系统的隐变量的转移分布
- 13.21-13.23:线性动力系统中间过程推导
- 13.24:带偏置项的线性动力系统
- 特例
- 13.29:类似隐马尔可夫模型的 reformulation
- 13.30:相邻隐状态的联合分布
- 13.31-13.34:线性动力系统的参数估计
习题详解
Exercise 13.6
Hint.
若 \(\pi_k=0\),则 \(z_{1k}\equiv 0\),则 \(\gamma(z_{1k})\equiv 0\)。
若 \(A_{jk}=0\),则 \(z_{n-1,j}z_{nk} \equiv 0\),则 \(\xi(z_{n-1,j},z_{nk})\equiv 0\)。
Comment.
本题说明隐马尔可夫模型不应使用全零初始化,否则会得到平凡解。
Exercise 13.25
Hint.
把卡尔曼滤波器视为一个随机过程,其应用于独立同分布数据,相当于一个增量为恒为零的独立增量过程,由于观测变量间的依赖性来源于隐变量间的依赖性,因此隐变量分布退化为不随时间改变的单点分布,即 \(z_n|z_{n-1}\sim\delta(z_n-\mu_0)\),此设定与习题 13.28 相同。
Solution.
在前述提示的基础上,进一步假设隐变量均值为观测变量均值,并且观测变量各向同性,即 \(x_n|z_n\sim\mathcal{N}(x_n|\mu_n,\sigma^2I)\)。在隐变量退化为与时间无关的单点分布的前提下,\(P_n=V_n\),因此 \(\mu_n,V_n,K_n\) 间的递推关系如下,
初值条件为 \(V_0=\sigma_0^2 I\)。计算得,
进一步验算可猜想
下面用归纳法证明,假设上述结论对 \(n\) 成立,对于 \(n+1\),
即结论对 \(n+1\) 成立,由归纳法原理,结论对任意自然数成立。
Comment.
卡尔曼滤波器/线性动力系统应用于独立同分布数据时,相当于对高斯分布做后验估计。
Exercise 13.26
Solution.
假设隐状态的分布不随时间改变,进一步假设隐状态服从标准正态分布 \(z_n|z_{n-1}\sim\mathcal{N}(z_n|0,I)\),此时有 \(P_n=I\)。进一步假设 \(x_n|z_n\) 各向同性,即 \(x_z|z_n\sim\mathcal{N}(x_n|Cz_n,\sigma^2 I)\)。\(\mu_n,V_n,K_n\) 的递推关系如下,
其中
注意到 \(\widetilde{C}^T\widetilde{C}\widetilde{C}^T+\widetilde{C}^T=\widetilde{C}^T(\widetilde{C}\widetilde{C}^T+I)=(\widetilde{C}^T\widetilde{C}+I)\widetilde{C}^T\),故 \(\widetilde{C}^T(\widetilde{C}\widetilde{C}^T+I)^{-1}=(\widetilde{C}^T\widetilde{C}+I)^{-1}\widetilde{C}^{T}\),故 \(K_n=(C^TC+\sigma^2 I)^{-1}C^T\)。用 \(W\) 替换 \(C\),记 \(M=W^TW+\sigma^2I\),则 \(\mu_n=M^{-1}W^T x_n\)。注意到由于没有偏置项,\(\mathbb{E}[x_n]=C\mathbb{z_n}=0\),故 \(\mu_n=M^{-1}W^T (x_n-\mathbb{E}[x_n])\),对应中心化之后的概率 PCA 的后验均值。
另一方面,\(V_n=I-C^T(CC^T+\sigma^2 I)^{-1}C=I-\widetilde{C}^T(\widetilde{C}\widetilde{C}^T+I)^{-1}\widetilde{C}\)。在矩阵恒等式 \((A+BD^{-1}C)^{-1}=A^{-1}-A^{-1}B(D+CA^{-1}B)CA^{-1}\) 中,取 \(A=I,B=\widetilde{C}^T,C=\widetilde{C}\),则有 \(V_n=(I+\widetilde{C}^T\widetilde{C})^{-1}=\sigma^2M^{-1}\),对应概率 PCA 的后验协方差。
Comment.
假设隐状态分布不随时间改变,则观测值为隐状态经线性映射得到,观测值亦可投影为隐状态,恰好对应概率 PCA。
Exercise 13.27
Hint.
若观测数据无误差,则 \(x_n|z_n\sim\delta(x_n-Cz_n)\),因为 \(x_n\) 为单点分布,不妨假设 \(C=I\),相当于令 \(z_n:=Cz_n\)。此时 \(K_n=P_{n-1}C^T(CP_{n-1}C^T+\Sigma)^{-1}=I\),\(\mu_n=A\mu_{n-1}+K_n(x_n-CA\mu_{n-1})=x_n\),即观测值为对隐状态的最佳估计。
Comment.
额外的假设 \(C=I\) 是因为该设定下 \(C\) 是冗余参数。
Exercise 13.28
Solution.
若隐状态不随时间改变,则有 \(z_n|z_{n-1}\sim\delta(z_n-c)\)。又 \(x_n\sim\mathcal{N}(x_n|Cz_n,\Sigma)\),与上题类似,不妨假设 \(C=I\)。易知 \(P_n=V_n\),则 \(\mu_n, V_n, K_n\) 的递推式如下
先考虑初值条件,\(K_1=V_0(V_0+\Sigma)^{-1}\),假设 \(V_0\) 可逆,则 \(K_1=(I+V_0^{-1}\Sigma)^{-1}=I-V_0^{-1}\Sigma+o(V^{-2}_0\Sigma)\),令 \(\|V_0\|\to\infty\),则 \(K_1=I\)。\(V_1=(V_0^{-1}\Sigma+o(V^{-2}_0\Sigma))V_0=\Sigma+o(V^{-1}_0\Sigma)\),令 \(\|V_0\|\to\infty\),得 \(V_1=\Sigma\)。进一步地,\(\mu_1=x_1\)。
进一步可以算得 \(K_2=\frac{1}{2}I,V_2=(I-\frac{1}{2}I)\Sigma=\frac{1}{2}\Sigma,\mu_2=(I-\frac{1}{2}I)\mu_1+\frac{1}{2}x_2=\frac{1}{2}(x_1+x_2)\)。由此可以猜想 \(K_n=\frac{1}{n}I,V_n=\frac{1}{n}\Sigma,\mu_n=\bar{x}_n\)。
下面用归纳法证明。假设结论对 \(n\) 成立,对于 \(n+1\),
\(K_{n+1}=\frac{1}{n}\Sigma(\frac{1}{n}\Sigma+\Sigma)^{-1}=\frac{1}{n+1}I\),\(V_{n+1}=(I-\frac{1}{n+1}I)\frac{1}{n}\Sigma=\frac{1}{n+1}\Sigma\),\(\mu_{n+1}=(1-\frac{1}{n+1}\Sigma)\bar{x}_n+\frac{1}{n+1}x_{n+1}=\bar{x}_{n+1}\),即归纳假设对 \(n+1\) 成立。由归纳法原理,结论对任意自然数成立。
Comment.
若隐状态不随时间改变,则可由观测值直接估计隐状态,假设观测值的均值与隐状态的均值相同,则用观测值的样本均值可以很好估计隐状态均值,观测次数越多,估计越准(协方差矩阵的范数越小)。