Fork me on GitHub

PRML第十三章习答案

Chapter 13. Sequential Data

更新日志(截至20210501)
  • 20210501:添加习题详解和习题 13.25-13.28 的详解
  • 20210127:首次提交,含习题 13.6 的详解

习题简述

  • 马尔可夫链
    • 13.1:由概率图说明一阶和二阶马尔可夫性
    • 13.2:由联合分布说明一阶和二阶马尔可夫性
  • 隐马尔可夫模型
    • 13.3:隐马尔可夫模型的观测变量之间不存在条件独立性,因为均可通过隐变量关联
    • 13.4:\(p(x|z,w)\) 的参数估计
    • 13.5:用拉格朗日乘子法优化隐马尔可夫模型中隐变量的分布及转移概率
    • 13.6:隐马尔可夫模型初始化的重要性
    • 13.7:可观测变量为高斯变量的参数估计
    • 13.8:可观测变量服从类别分布时的参数估计
    • 13.9-13.10:隐马尔可夫模型的条件独立性
    • 13.11:两个连续的隐变量的联合分布
    • 13.12:数据为多个观察序列下隐马尔可夫模型的参数估计
    • 13.13-13.18:用概率图模型的消息传递算法求解隐马尔可夫模型
  • 线性动力系统
    • 13.19:已知观测变量的前提下,隐变量的后验分布是高斯分布,若用均值预测,则只需求高斯分布均值,只需优化每个隐变量的边际似然
    • 13.20:线性动力系统的隐变量的转移分布
    • 13.21-13.23:线性动力系统中间过程推导
    • 13.24:带偏置项的线性动力系统
    • 特例
      • 13.25:当观测数据独立同分布时,隐状态不随时间改变,线性动力系统的推断退化为高斯分布的后验估计
      • 13.26:若隐状态分布不随时间改变,线性动力系统退化为高斯线性模型的一个特例,即概率 PCA
      • 13.27:如果观测数据无噪声,可直接用当前观测值估计当前隐状态
      • 13.28:若隐变量不随时间改变,则可用观测变量的平均估计当前隐状态
    • 13.29:类似隐马尔可夫模型的 reformulation
    • 13.30:相邻隐状态的联合分布
    • 13.31-13.34:线性动力系统的参数估计

习题详解

Exercise 13.6


Hint.
\(\pi_k=0\),则 \(z_{1k}\equiv 0\),则 \(\gamma(z_{1k})\equiv 0\)
\(A_{jk}=0\),则 \(z_{n-1,j}z_{nk} \equiv 0\),则 \(\xi(z_{n-1,j},z_{nk})\equiv 0\)


Comment.
本题说明隐马尔可夫模型不应使用全零初始化,否则会得到平凡解。


Exercise 13.25


Hint.
把卡尔曼滤波器视为一个随机过程,其应用于独立同分布数据,相当于一个增量为恒为零的独立增量过程,由于观测变量间的依赖性来源于隐变量间的依赖性,因此隐变量分布退化为不随时间改变的单点分布,即 \(z_n|z_{n-1}\sim\delta(z_n-\mu_0)\),此设定与习题 13.28 相同。


Solution.
在前述提示的基础上,进一步假设隐变量均值为观测变量均值,并且观测变量各向同性,即 \(x_n|z_n\sim\mathcal{N}(x_n|\mu_n,\sigma^2I)\)。在隐变量退化为与时间无关的单点分布的前提下,\(P_n=V_n\),因此 \(\mu_n,V_n,K_n\) 间的递推关系如下,

\[\begin{aligned} \mu_n&=(I-K_n)\mu_{n-1}+K_n x_n,\\ V_n&=(I-K_n)V_{n-1},\\ K_n&=V_{n-1}(V_{n-1}+\sigma^2 I)^{-1}, \end{aligned} \]

初值条件为 \(V_0=\sigma_0^2 I\)。计算得,

\[\begin{aligned} K_1&=\frac{1}{1+(\sigma/\sigma_0)^2}I\\ V_1&=\frac{\sigma^2}{1+(\sigma/\sigma_0)^{-2}}I\\ \mu_1&=\frac{(\sigma/\sigma_0)^2\mu_0+x_1}{1+(\sigma/\sigma_0)^2} \end{aligned} \]

进一步验算可猜想

\[\begin{aligned} K_n&=\frac{1}{n+(\sigma/\sigma_0)^2}I\\ V_n&=\frac{\sigma^2}{n+(\sigma/\sigma_0)^{-2}}I\\ \mu_n&=\frac{(\sigma/\sigma_0)^2\mu_0+\sum^{n}_{i=1} x_i}{n+(\sigma/\sigma_0)^2} \end{aligned} \]

下面用归纳法证明,假设上述结论对 \(n\) 成立,对于 \(n+1\)

\[\begin{aligned} K_{n+1} &=V_n(V_n+\sigma^2 I)^{-1}\\ &=(I+\sigma^2 V_n^{-1})^{-1}\\ &=\frac{1}{(n+1)+(\sigma/\sigma_0)^2}I \end{aligned} \]

\[\begin{aligned} V_{n+1} &=(I-K_{n+1})V_n\\ &=\frac{n+(\sigma/\sigma_0)^2}{(n+1)+(\sigma/\sigma_0)^2}\frac{\sigma^2}{n+(\sigma/\sigma_0)^{-2}}I\\ &=\frac{\sigma^2}{(n+1)+(\sigma/\sigma_0)^{-2}}I \end{aligned} \]

\[\begin{aligned} \mu_{n+1} &=(I-K_{n+1})\mu_n+K_{n+1} x_{n+1}\\ &=\frac{n+(\sigma/\sigma_0)^2}{(n+1)+(\sigma/\sigma_0)^2}\frac{(\sigma/\sigma_0)^2\mu_0+\sum x_n}{n+(\sigma/\sigma_0)^2}+\frac{x_{n+1}}{(n+1)+(\sigma/\sigma_0)^2}\\ &=\frac{(\sigma/\sigma_0)^2\mu_0+\sum^{n+1}_{i=1} x_i}{(n+1)+(\sigma/\sigma_0)^2} \end{aligned} \]

即结论对 \(n+1\) 成立,由归纳法原理,结论对任意自然数成立。


Comment.
卡尔曼滤波器/线性动力系统应用于独立同分布数据时,相当于对高斯分布做后验估计。


Exercise 13.26


Solution.
假设隐状态的分布不随时间改变,进一步假设隐状态服从标准正态分布 \(z_n|z_{n-1}\sim\mathcal{N}(z_n|0,I)\),此时有 \(P_n=I\)。进一步假设 \(x_n|z_n\) 各向同性,即 \(x_z|z_n\sim\mathcal{N}(x_n|Cz_n,\sigma^2 I)\)\(\mu_n,V_n,K_n\) 的递推关系如下,

\[\begin{aligned} K_n&=C^T(CC^T+\sigma^2 I)^{-1}\\ \mu_n&=K_n x_n\\ V_n&=I-K_n C \end{aligned} \]

其中

\[\begin{aligned} K_n&=\sigma^{-1}(\sigma^{-1}C)^T((\sigma^{-1}C)(\sigma^{-1}C)^T+I)^{-1}\\ &=\sigma^{-1}\widetilde{C}^T(\widetilde{C}\widetilde{C}^T+I)^{-1}\quad(\widetilde{C}\triangleq\sigma^{-1}C) \end{aligned} \]

注意到 \(\widetilde{C}^T\widetilde{C}\widetilde{C}^T+\widetilde{C}^T=\widetilde{C}^T(\widetilde{C}\widetilde{C}^T+I)=(\widetilde{C}^T\widetilde{C}+I)\widetilde{C}^T\),故 \(\widetilde{C}^T(\widetilde{C}\widetilde{C}^T+I)^{-1}=(\widetilde{C}^T\widetilde{C}+I)^{-1}\widetilde{C}^{T}\),故 \(K_n=(C^TC+\sigma^2 I)^{-1}C^T\)。用 \(W\) 替换 \(C\),记 \(M=W^TW+\sigma^2I\),则 \(\mu_n=M^{-1}W^T x_n\)。注意到由于没有偏置项,\(\mathbb{E}[x_n]=C\mathbb{z_n}=0\),故 \(\mu_n=M^{-1}W^T (x_n-\mathbb{E}[x_n])\),对应中心化之后的概率 PCA 的后验均值。

另一方面,\(V_n=I-C^T(CC^T+\sigma^2 I)^{-1}C=I-\widetilde{C}^T(\widetilde{C}\widetilde{C}^T+I)^{-1}\widetilde{C}\)。在矩阵恒等式 \((A+BD^{-1}C)^{-1}=A^{-1}-A^{-1}B(D+CA^{-1}B)CA^{-1}\) 中,取 \(A=I,B=\widetilde{C}^T,C=\widetilde{C}\),则有 \(V_n=(I+\widetilde{C}^T\widetilde{C})^{-1}=\sigma^2M^{-1}\),对应概率 PCA 的后验协方差。


Comment.
假设隐状态分布不随时间改变,则观测值为隐状态经线性映射得到,观测值亦可投影为隐状态,恰好对应概率 PCA。


Exercise 13.27


Hint.
若观测数据无误差,则 \(x_n|z_n\sim\delta(x_n-Cz_n)\),因为 \(x_n\) 为单点分布,不妨假设 \(C=I\),相当于令 \(z_n:=Cz_n\)。此时 \(K_n=P_{n-1}C^T(CP_{n-1}C^T+\Sigma)^{-1}=I\)\(\mu_n=A\mu_{n-1}+K_n(x_n-CA\mu_{n-1})=x_n\),即观测值为对隐状态的最佳估计。


Comment.
额外的假设 \(C=I\) 是因为该设定下 \(C\) 是冗余参数。


Exercise 13.28


Solution.
若隐状态不随时间改变,则有 \(z_n|z_{n-1}\sim\delta(z_n-c)\)。又 \(x_n\sim\mathcal{N}(x_n|Cz_n,\Sigma)\),与上题类似,不妨假设 \(C=I\)。易知 \(P_n=V_n\),则 \(\mu_n, V_n, K_n\) 的递推式如下

\[\begin{aligned} \mu_n&=(I-K_n)\mu_{n-1}+K_n x_n,\\ V_n&=(I-K_n)V_{n-1},\\ K_n&=V_{n-1}(V_{n-1}+\Sigma)^{-1}, \end{aligned} \]

先考虑初值条件,\(K_1=V_0(V_0+\Sigma)^{-1}\),假设 \(V_0\) 可逆,则 \(K_1=(I+V_0^{-1}\Sigma)^{-1}=I-V_0^{-1}\Sigma+o(V^{-2}_0\Sigma)\),令 \(\|V_0\|\to\infty\),则 \(K_1=I\)\(V_1=(V_0^{-1}\Sigma+o(V^{-2}_0\Sigma))V_0=\Sigma+o(V^{-1}_0\Sigma)\),令 \(\|V_0\|\to\infty\),得 \(V_1=\Sigma\)。进一步地,\(\mu_1=x_1\)

进一步可以算得 \(K_2=\frac{1}{2}I,V_2=(I-\frac{1}{2}I)\Sigma=\frac{1}{2}\Sigma,\mu_2=(I-\frac{1}{2}I)\mu_1+\frac{1}{2}x_2=\frac{1}{2}(x_1+x_2)\)。由此可以猜想 \(K_n=\frac{1}{n}I,V_n=\frac{1}{n}\Sigma,\mu_n=\bar{x}_n\)

下面用归纳法证明。假设结论对 \(n\) 成立,对于 \(n+1\)
\(K_{n+1}=\frac{1}{n}\Sigma(\frac{1}{n}\Sigma+\Sigma)^{-1}=\frac{1}{n+1}I\)\(V_{n+1}=(I-\frac{1}{n+1}I)\frac{1}{n}\Sigma=\frac{1}{n+1}\Sigma\)\(\mu_{n+1}=(1-\frac{1}{n+1}\Sigma)\bar{x}_n+\frac{1}{n+1}x_{n+1}=\bar{x}_{n+1}\),即归纳假设对 \(n+1\) 成立。由归纳法原理,结论对任意自然数成立。


Comment.
若隐状态不随时间改变,则可由观测值直接估计隐状态,假设观测值的均值与隐状态的均值相同,则用观测值的样本均值可以很好估计隐状态均值,观测次数越多,估计越准(协方差矩阵的范数越小)。


posted @ 2021-01-29 00:06  Rotopia  阅读(199)  评论(0编辑  收藏  举报