PRML第三章习题答案

Chapter 3. Linear Models for Regression

更新日志（截至20210710）

20210710：添加习题 3.15-3.16,3.20-3.24 的详解
20210706：添加习题 3.3，3.5-3.6，3.8-3.10，3.12-3.13 的详解
20210313：添加习题简述，添加习题 3.4，3.14 的详解
20210127：首次提交，含习题 3.11 的详解

习题简述

线性回归
- 3.1：\(\text{tanh}\) 可由 \(\sigma\) 线性变换得到
- 3.2：最小二乘解为正交投影
- 3.3：加权最小二乘对应数据依赖的噪声或重复数据
- 3.4：带噪声的输入相当于权重正则，类别神经网络的数据增强
- 3.5：带权重正则的最小二乘等同于带约束优化
- 3.6：多元线性回归的极大似然估计
- 3.7：权重的最大后验估计
- 3.8：线性回归的序列学习
- 3.9：利用高斯线性模型证明3.8
- 3.10：计算预测分布
- 3.11：证明后验方差随数据量增大而减小
- 3.12：权重分布的共轭先验
- 3.13：证明基于 Gaussian-gamma 先验的权重分布的预测分布是 Student's t 分布
- 3.14：正交基函数诱导的等价核的性质
- 经验贝叶斯
  - 3.15-3.19：evidence 的对数似然
  - 3.20：推导 \(\alpha\) 的优化过程
  - 3.21：利用行列式对数的导数优化 \(\alpha\)
  - 3.22：推导 \(\beta\) 的优化过程
  - 3.23：计算 evidence 的边际分布
  - 3.24：用贝叶斯公式重新推导 3.23

习题详解

Exercise 3.3

Hint.

\[\begin{aligned} E_D(\mathbf{w}) &=\frac{1}{2}\sum^N_{n=1}r_n\|\mathbf{t}_n-W^T\phi(\mathbf{x}_n)\|^2_2\\ &=-\sum^N_{n=1}\ln\mathcal{N}(\mathbf{t}_n|W^T\phi(\mathbf{x}_n),r_n^{-1}I)+\text{const.} \end{aligned} \]

第一个等号可以把 \(r_n\) 理解为样本权重，第二个等号可以把 \(r_n\) 理解为样本噪声的精度（precision）。

Comment.

Exercise 3.4

Solution.
由于样本独立，噪声与输入独立，只需考虑一个样本的情形。

\[\begin{aligned} \underset{\epsilon}{\mathbb{E}}\left[(w^T(x+\epsilon)-t)^2\right] &= \underset{\epsilon}{\mathbb{E}}\left[((w^Tx-t)+w^T\epsilon)^2\right]\\ &=\underset{\epsilon}{\mathbb{E}}\left[(w^Tx-t)^2\right] + \underset{\epsilon}{\mathbb{E}}\left[(w^T\epsilon)(\epsilon^Tw)\right] + \underset{\epsilon}{\mathbb{E}}\left[ (w^Tx-t)w^T\epsilon\right]\\ &=(w^Tx-t)^2 + w^T\underset{\epsilon}{\mathbb{E}}\left[\epsilon\epsilon^T\right]w + (w^Tx-t)w^T\underset{\epsilon}{\mathbb{E}}\left[ \epsilon\right]\\ &=(w^Tx-t)^2 + \sigma^2 w^T w \end{aligned} \]

Comment.

该结论对多元输出的情形亦成立，只需用迹技巧展开 F-范数。

Exercise 3.5

Hint.
带约束的优化问题

\[\begin{aligned} \min_{\mathbf{w}}&\,\frac{1}{2}\|\mathbf{t}-\Phi \mathbf{w}\|^2_2\\ \text{s.t.}&\,\|\mathbf{w}\|^q_q\leq \eta. \end{aligned} \]

用拉格朗日乘子法等价转为无约束优化问题

\[\min_{\mathbf{w}}\,\frac{1}{2}\|\mathbf{t}-\Phi \mathbf{w}\|^2_2+\frac{\lambda}{2}(\|\mathbf{w}\|^q_q- \eta) \]

记最优解为 \(\mathbf{w}^*_\lambda\)，若 \(\lambda >0\)，则由 KKT 条件有等式约束满足，即 \(\eta=\|\mathbf{w}^*_\lambda\|^q_q\)，即 \(\eta\) 对应最优解的 \(q\)-范数。

Comment.

Exercise 3.6

Solution.

\[\begin{aligned} \mathcal{L} &=-\sum^N_{n=1}\ln\mathcal{N}(\mathbf{t}_n|\mathbf{W}^T\phi(\mathbf{x}_n),\Sigma)\\ &=\frac{N}{2}\ln|\Sigma|+\frac{1}{2}\sum^N_{n=1}(\mathbf{W}^T\phi(\mathbf{x}_n)-\mathbf{t}_n)^T\Sigma^{-1}(\mathbf{W}^T\phi(\mathbf{x}_n)-\mathbf{t}_n)+\text{const.}\\ &=\frac{N}{2}\ln|\Sigma|+\frac{1}{2}\text{tr}((\Phi \mathbf{W}-\mathbf{T})\Sigma^{-1}(\Phi \mathbf{W}-\mathbf{T})^T)+\text{const.}\\ &=\frac{N}{2}\ln|\Sigma|+\frac{1}{2}\text{tr}(\Sigma^{-1}(\Phi \mathbf{W}-\mathbf{T})^T(\Phi \mathbf{W}-\mathbf{T}))+\text{const.} \end{aligned} \]

计算梯度得

\[\begin{aligned} \frac{\partial \mathcal{L}}{\partial \mathbf{W}} &=\Phi^T(\Phi \mathbf{W}-\mathbf{T})\Sigma^{-1}=0\\ \frac{\partial \mathcal{L}}{\partial \Sigma^{-1}}&=-\frac{N}{2}\Sigma+\frac{1}{2}(\Phi \mathbf{W}-\mathbf{T})^T(\Phi \mathbf{W}-\mathbf{T})=0 \end{aligned} \]

故 \(\mathbf{W}_{\text{ML}}=(\Phi^T\Phi)^\dagger\Phi^T\mathbf{T},\Sigma_{\text{ML}}=(\Phi \mathbf{W}_{\text{ML}}-\mathbf{T})^T(\Phi \mathbf{W}_{\text{ML}}-\mathbf{T})\)。

Comment.
求解过程中发现，对于线性回归问题，噪声的协方差矩阵不影响权重矩阵的优化。

Exercise 3.8

Solution.
记 \(\Phi_N=[\phi_1^T;\dots;\phi_N^T],\mathbf{t}_N=[t_1,\dots,t_N]^T\)，则已知 \(N\) 个样本的后验估计可以表示为

\[\begin{aligned} \mathbf{m}_N&=\mathbf{S}_N(\mathbf{S}_0^{-1}\mathbf{m}_0+\beta\Phi^T_N\mathbf{t}_N)\\ \mathbf{S}_N^{-1}&=\mathbf{S}_0^{-1}+\beta\Phi^T_N\Phi_N \end{aligned} \]

记 \(\Phi_{N+1}=[\Phi_N;\phi_{N+1}],\mathbf{t}_{N+1}=[\mathbf{t}_N^T,t_{N+1}]^T\)，则

\[\begin{aligned} \Phi^T_{N+1}\Phi_{N+1}&=[\Phi_N^T,\phi_{N+1}]\left[ \begin{matrix} \Phi_N\\\phi_{N+1} \end{matrix} \right]=\Phi^T_N\Phi^T_N+\phi_{N+1}\phi_{N+1}^T\\ \Phi^T_{N+1}\mathbf{t}_{N+1}&=[\Phi_N^T,\phi_{N+1}]\left[ \begin{matrix} \mathbf{t}_N\\t_{N+1} \end{matrix} \right]=\Phi^T_{N}\mathbf{t}_{N}+t_{N+1}\phi_{N+1} \end{aligned} \]

故

\[\begin{aligned} \mathbf{S}_{N+1}^{-1} &=\mathbf{S}_0^{-1}+\beta\Phi^T_{N+1}\Phi_{N+1}\\ &=\mathbf{S}_0^{-1}+\beta\Phi^T_{N}\Phi_{N}+\beta\phi_{N+1}\phi_{N+1}^T\\ &=\mathbf{S}_{N}^{-1}+\beta\phi_{N+1}\phi_{N+1}^T \end{aligned} \]

另外

\[\begin{aligned} \mathbf{m}_{N+1}&=\mathbf{S}_{N+1}(\mathbf{S}_0^{-1}\mathbf{m}_0+\beta\Phi^T_{N+1}\mathbf{t}_{N+1})\\ &=\mathbf{S}_{N+1}(\mathbf{S}_0^{-1}\mathbf{m}_0+\beta\Phi^T_{N}\mathbf{t}_{N}+\beta t_{N+1}\phi_{N+1})\\ &=\mathbf{S}_{N+1}(\mathbf{S}_{N}^{-1}\mathbf{m}_N+\beta t_{N+1}\phi_{N+1}) \end{aligned} \]

即得到了增加第 \(N+1\) 个样本时的更新公式。可以看到，递推式和通项公式形式上十分接近。

Exercise 3.9

Solution.
将序列估计写为高斯线性模型为

\[\begin{aligned} p(\mathbf{w})&=\mathcal{N}(\mathbf{w}|\mathbf{m}_N,(\mathbf{S}_N^{-1})^{-1})\\ p(t_{N+1}|\mathbf{w})&=\mathcal{N}(\mathbf{w}|\phi_{N+1}^T\mathbf{w},(\beta I)^{-1}) \end{aligned} \]

由高斯线性模型的结论，

\[\begin{aligned} p(\mathbf{w}|t_{N+1}) &=\mathcal{N}(\mathbf{w}|\mathbf{S}_{N+1}(\phi_{N+1}\beta I t_{N+1}+\mathbf{S}_N^{-1}\mathbf{m}_N),\mathbf{S}_{N+1})\\ &=\mathcal{N}(\mathbf{w}|\mathbf{S}_{N+1}(\mathbf{S}_N^{-1}\mathbf{m}_N+\beta\phi_{N+1}t_{N+1}),\mathbf{S}_{N+1}) \end{aligned} \]

其中 \(\mathbf{S}_{N+1}=(\mathbf{S}_{N}+\beta\Phi_{N+1}\phi_{N+1}^T)^{-1}\)，结果与上题结论一致。

Comment.
本题提供了线性回归序列更新的一个重要观点，即将其视为线性高斯模型。

Exercise 3.10

Solution.
\(p(t|\mathbf{w},\beta)=\mathcal{N}(t|\mathbf{w}^T\phi,\beta^{-1}),p(\mathbf{w}|\mathbf{t},\alpha,\beta)=\mathcal{N}(\mathbf{w}|\mathbf{m}_N,\mathbf{S}_N)\) 可视为高斯线性模型 \(t=\phi^T\mathbf{w}\)，已知 \(t|\mathbf{w},\mathbf{w}\) 的分布，求 \(t\) 的分布。套用高斯线性模型的结论有

\[p(t|\mathbf{t},\alpha,\beta)=\mathcal{N}(t|\phi^T\mathbf{m}_N,\beta^{-1}+\phi^T\mathbf{S}_N\phi). \]

Exercise 3.11

Hint.

记\(\Phi_N = [\phi^T_0;\dots;\phi^T_N]\)

\[\begin{aligned} S_{N+1}^{-1} &=S_0^{-1}+\beta\Phi^T_{N+1}\Phi_{N+1}\\ &=S_0^{-1}+\beta [\Phi_N^T,\phi_{N+1}] \left[ \begin{matrix} \Phi_N\\ \phi^T_{N+1} \end{matrix} \right]\\ &=S_0^{-1}+\beta(\Phi_N^T\Phi_N + \phi_{N+1}\phi^T_{N+1})\\ &=S_N^{-1}+v v^T\quad(v=\sqrt{\beta}\phi_{N+1}) \end{aligned} \]

根据提示\((M+v v^T)^{-1}=M^{-1}-\frac{(M^{-1}v)(v^T M^{-1})}{1+v^T M^{-1}v}\)，\((M+v v^T)^{-1}\preceq M^{-1}\)，令\(M=S_N^{-1}\)，则有\(S_{N+1}\preceq S_N\)，则有\(\sigma^2_{N+1}\leq \sigma^2_{N}\)。

Exercise 3.12

Solution.
由正文公式 3.10，

\[\ln p(\mathbf{t}|\mathbf{w},\beta) = \frac{N}{2}\ln \beta-\frac{N}{2}\ln 2\pi -\frac{\beta}{2}\|\Phi\mathbf{w}-\mathbf{t}\|^2_2 \]

故对于 \(\beta\)，

\[p(\mathbf{t}|\mathbf{w},\beta) \propto \beta^{N/2}e^{-\frac{1}{2}\|\Phi\mathbf{w}-\mathbf{t}\|^2_2\beta} \]

即关于 \(\beta\) 的共轭先验为 gamma 分布；
对于 \(\mathbf{w}\)，

\[p(\mathbf{t}|\mathbf{w},\beta) \propto e^{-\frac{1}{2}(\mathbf{w}-\sqrt{\Phi^T\Phi}^{-1}\mathbf{t})^T(\beta\Phi^T\Phi)(\mathbf{w}-\sqrt{\Phi^T\Phi}^{-1}\mathbf{t})} \]

即关于 \(\mathbf{w}\) 的共轭先验为高斯分布，因此，关于 \(\mathbf{w},\beta\) 的共轭先验为 normal-gamma 分布，记作

\[p(\mathbf{w},\beta)=\mathcal{N}(\mathbf{w}|\mathbf{m}_0,\beta^{-1}\mathbf{S}_0)\text{Gam}(\beta|a_0,b_0) \]

其后验分布

\[\begin{aligned} \ln p(\mathbf{w},\beta|\mathbf{t}) &= p(\mathbf{t}|\mathbf{w},\beta)p(\mathbf{w},\beta)+\text{const.}\\ &=\frac{N}{2}\ln \beta-\frac{N}{2}\ln 2\pi -\frac{\beta}{2}\|\Phi\mathbf{w}-\mathbf{t}\|^2_2\\ &\quad\,\, +\frac{M}{2}\ln \beta-\frac{1}{2}\ln |\mathbf{S}_0|-\frac{\beta}{2}(\mathbf{w}-\mathbf{m}_0)\mathbf{S}^{-1}_0(\mathbf{w}-\mathbf{m}_0)\\ &\quad\,\, +a_0\ln b_0 + (a_0-1)\ln \beta-b_0\beta+\text{const.}\\ &=\left(\frac{N+M}{2}+(a_0-1)\right)\ln\beta\\ &\quad\,\, -\frac{\beta}{2}\mathbf{w}^T(\mathbf{S}_0^{-1}+\Phi^T\Phi)\mathbf{w}+\beta(\mathbf{S}_0^{-1}\mathbf{m}_0+\Phi^T\mathbf{t})^T\mathbf{w}-\frac{\beta}{2}(\mathbf{t}^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}^{-1}_0\mathbf{m}_0+2b_0)+\text{const.} \end{aligned} \]

其中，三个等号右边的 \(\text{const.}\) 均代表与 \(\beta,\mathbf{w}\) 无关的常数项，未必相等。
注意到 \(\ln p(\mathbf{w},\beta|\mathbf{t})=\ln p(\mathbf{w}|\beta,\mathbf{t})+\ln p(\beta|\mathbf{t})\)，下面分别考虑 \(\mathbf{w}|\beta\) 和 \(\beta\)。对于 \(\mathbf{w}|\beta\)，由最后一个等号可知

\[p(\mathbf{w}|\beta,\mathbf{t})=\mathcal{N}(\mathbf{w}|(\mathbf{S}_0^{-1}+\Phi^T\Phi)^{-1}(\mathbf{S}_0^{-1}\mathbf{m}_0+\Phi^T\mathbf{t}),\beta^{-1}(\mathbf{S}_0^{-1}+\Phi^T\Phi)^{-1}) \]

即

\[\begin{aligned} \mathbf{m}_N&=\mathbf{S}_N(\mathbf{S}_0^{-1}\mathbf{m}_0+\Phi^T\mathbf{t})\\ \beta\mathbf{S}_N^{-1}&=\beta(\mathbf{S}_0^{-1}+\Phi^T\Phi) \end{aligned} \]

z则

\[\begin{aligned} \ln p(\beta|\mathbf{t}) &=\ln p(\mathbf{w},\beta|\mathbf{t})-\ln p(\mathbf{w}|\beta,\mathbf{t})\\ &=\left(\frac{N}{2}+(a_0-1)\right)\ln\beta-\frac{\beta}{2}(\mathbf{t}^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}^{-1}_0\mathbf{m}_0-\mathbf{m}_N^T\mathbf{S}^{-1}_N\mathbf{m}_N+2b_0)+\text{const.} \end{aligned} \]

记

\[\begin{aligned} a_N&=a_0+\frac{N}{2}\\ b_N&=b_0+\frac{1}{2}(\mathbf{t}^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}^{-1}_0\mathbf{m}_0-\mathbf{m}_N^T\mathbf{S}^{-1}_N\mathbf{m}_N) \end{aligned} \]

则

\[p(\beta|\mathbf{t})=\text{Gam}(\beta|a_N,b_N) \]

Comment.

通过似然函数可以得到共轭先验的函数形式，通过比对相关项得出分布的参数
后验分布为 \(\mathbf{w},t\) 的联合分布，拆分成条件分布易于确定分布参数

Exercise 3.13

Solution.

\[\begin{aligned} p(t|\mathbf{t}) &=\int\int p(t|\mathbf{w},\beta)p(\mathbf{w},\beta|\mathbf{t})\text{d}\,\mathbf{w}\,\text{d}\,\beta\\ &=\int\int \mathcal{N}(t|\mathbf{w}^T\phi,\beta^{-1})\mathcal{N}(\mathbf{w}|\mathbf{m}_N,\beta^{-1}\mathbf{S}_N)\text{Gam}(\beta|a_N,b_N)\text{d}\,\mathbf{w}\,\text{d}\,\beta\\ &=\int\text{Gam}(\beta|a_N,b_N)\text{d}\,\beta\int \mathcal{N}(t|\mathbf{w}^T\phi,\beta^{-1})\mathcal{N}(\mathbf{w}|\mathbf{m}_N,\beta^{-1}\mathbf{S}_N)\text{d}\,\mathbf{w}\\ &=\int\mathcal{N}(t|\phi^T\mathbf{m}_N,\beta^{-1}+\beta\phi^T\mathbf{S}_N\phi)\text{Gam}(\beta|a_N,b_N)\text{d}\,\beta\\ &=\int\mathcal{N}(t|\phi^T\mathbf{m}_N,\beta^{-1}+\phi^T(\beta\mathbf{S}_0^{-1}+\beta\Phi^T_N\Phi_N)^{-1}\phi)\text{Gam}(\beta|a_N,b_N)\text{d}\,\beta\quad(\beta\mathbf{S}^{-1}_N=\beta(\mathbf{S}^{-1}_0+\Phi^T_N\Phi_N))\\ &=\int\mathcal{N}(t|\phi^T\mathbf{m}_N,\beta^{-1}(1+\phi^T(\mathbf{S}_0^{-1}+\Phi^T_N\Phi_N)^{-1}\phi))\text{Gam}(\beta|a_N,b_N)\text{d}\,\beta\\ &=\int\mathcal{N}(t|\phi^T\mathbf{m}_N,\beta^{-1}s)\text{Gam}(\beta|a_N,b_N)\text{d}\,\beta\quad(s=(1+\phi^T(\mathbf{S}_0^{-1}+\Phi^T_N\Phi_N)^{-1}\phi))\\ &=\int\mathcal{N}(t|\phi^T\mathbf{m}_N,\gamma^{-1})\text{Gam}(\gamma s|a_N,b_N)\text{d}\,\gamma s\quad(\gamma=\beta s^{-1})\\ \end{aligned} \]

其中第 5 个等号由习题 3.12 的结论得到。
注意到

\[\begin{aligned} \text{Gam}(\gamma s|a,b) &=\frac{1}{\Gamma(a)}b^a(\gamma s)^{a-1}e^{-b\gamma s}\\ &=\frac{1}{s\Gamma(a)}(bs)^a(\gamma)^{a-1}e^{-(bs)\gamma}\\ &=\frac{1}{s}\text{Gam}(\gamma|a,bs) \end{aligned} \]

故

\[\begin{aligned} p(t|\mathbf{t}) &=\int\mathcal{N}(t|\phi^T\mathbf{m}_N,\gamma^{-1})\text{Gam}(\gamma s|a_N,b_N)\text{d}\,\gamma s\\ &=\int\mathcal{N}(t|\phi^T\mathbf{m}_N,\gamma^{-1})\text{Gam}(\gamma|a_N,sb_N)\text{d}\,\gamma\\ &=\text{St}(t|\phi^T\mathbf{m}_N,\frac{a_N}{sb_N},2a_N) \end{aligned} \]

Comment.
本题用到了 gamma 分布的概率密度函数的以下性质

\[\text{Gam}(\lambda s|a,b)=\frac{1}{s}\text{Gam}(\lambda|a,bs). \]

Exercise 3.14

Solution.

正交性条件即矩阵 \(\Psi\) 的列构成幺正基，在样本数 \(N\) 大于特征维度 \(M\) 的前提下，若 \(\Phi\) 列线性无关，则可列正交化，进一步可以归一化。设 \(\Phi\) 经变换 \(P\) 得到正交矩阵 \(\Psi\)，即 \(\Psi = \Phi P\)，且 \(\Psi^T\Psi=I\)。

线性回归的等价核

\[\begin{aligned} k(x,x') &=\beta\phi(x)^T S_N \phi(x')\\ &=\beta\phi(x)^T(\beta\Phi^T\Phi)^{-1}\phi(x')\quad(\alpha=0)\\ &=\phi(x)^T(P^T\Psi^T\Psi P)^{-1}\phi(x')\quad(\Psi=\Phi P)\\ &=\phi(x)^T P^{-1} {P^{-1}}^T\phi(x')\\ &=({P^{-1}}^T\phi(x))^T({P^{-1}}^T\phi(x'))\\ &=\psi(x)^T\psi(x')\quad({P^{-1}}^T\phi(x)=\psi(x)) \end{aligned} \]

核即样本空间上的内积，上述过程给出了其在正交基下的表示。

\[\begin{aligned} \sum^N_{n=1}k(x,x_n) &=\sum^N_{n=1}\psi(x)^T\psi(x_n)\\ &=\mathbf{1}^T\Psi \psi(x) \end{aligned} \]

假设 \(\psi_0\) 为常数函数，由于 \(||\psi_0(X)||_2=1\)，故 \(\psi_0(x)\equiv \frac{1}{\sqrt{N}}\)，而题目假设 \(\psi_0(x)\equiv 1\) 违反了规范性约束。

故 \(\mathbf{1}^T\Psi \psi(x) = \sqrt{N}\,\psi_0(X)^T\Psi\psi(x)=\sqrt{N}\,\mathbf{e}_0^T\psi(x)=\sqrt{N}\,\psi_0(x)=1\)。

Comment.

核的和约束来自于线性回归的常数项。

Exercise 3.15

Hint.
注意理解本题的意思，是基于经验贝叶斯框架优化得到的 \(\alpha,\beta\)，\(E(\mathbf{m}_N)\) 为常数，一般而言其非常数。
由公式 3.92，\(\alpha^*=\frac{\gamma}{\mathbf{m}_N^T\mathbf{m}_N}\)，由公式 3.95，\((\beta^*)^{-1}=\frac{1}{N-\gamma}\|\Phi\mathbf{m}_N-\mathbf{t}\|^2_2\)，代入 \(E(\mathbf{m}_N)\) 的表达式即可得到结果。

Exercise 3.16

Solution.
\(p(\mathbf{t}|\mathbf{w},\beta)=\mathcal{N}(\mathbf{t}|\Phi\mathbf{w},\beta^{-1}I_N),p(\mathbf{w}|\alpha)=\mathcal{N}(\mathbf{w}|0,\alpha^{-1}I_M)\)，对于随机变量 \(\mathbf{w},\mathbf{t}|\mathbf{w}\) 由高斯线性模型有

\[p(\mathbf{t}|\alpha,\beta)=\mathcal{N}(\mathbf{t}|0,\beta^{-1}I_N+\alpha^{-1}\Phi\Phi^T) \]

下面证明其与公式 3.86 相等，需要建立 \(\beta^{-1}I_N+\alpha^{-1}\Phi\Phi^T\) 与 \(\alpha I_M+\beta\Phi^T\Phi\) 的联系。一方面

\[\begin{aligned} |\beta^{-1}I_N+\alpha^{-1}\Phi\Phi^T| &=\beta^{-N}|I_N+\alpha^{-1}\beta\Phi\Phi^T|\\ &=\beta^{-N}|I_M+\alpha^{-1}\beta\Phi^T\Phi|\\ &=\alpha^{-M}\beta^{-N}|\alpha I_M+\beta\Phi^T\Phi| \end{aligned} \]

其中，第 2 个等号是由公式 C.14 得到。
另一方面，由公式 C.7，

\[\begin{aligned} (\beta^{-1}I_N+\alpha^{-1}\Phi\Phi^T)^{-1} &=\beta I_N - \beta^{2}\Phi(\alpha I_M +\beta\Phi^T\Phi)^{-1}\Phi^T \end{aligned} \]

故

\[\begin{aligned} \frac{1}{2}\mathbf{t}^T(\beta^{-1}I_N+\alpha^{-1}\Phi\Phi^T)^{-1}\mathbf{t} &=\frac{1}{2}\mathbf{t}^T(\beta I_N - \beta^{2}\Phi(\alpha I_M +\beta\Phi^T\Phi)^{-1}\Phi^T)\mathbf{t}\\ &=\frac{\beta}{2}(\mathbf{t}^T\mathbf{t}-\mathbf{t}^T\Phi\mathbf{m}_N)\quad(\mathbf{m}_N=\beta(\alpha I_M+\beta\Phi^T\Phi)^{-1}\Phi^T\mathbf{t})\\ &=\frac{\beta}{2}(\mathbf{t}^T\mathbf{t}-2\mathbf{t}^T\Phi\mathbf{m}_N+\mathbf{m}_N^T\Phi^T\Phi\mathbf{m}_N+\mathbf{t}^T\Phi\mathbf{m}_N-\mathbf{m}_N^T\Phi^T\Phi\mathbf{m}_N)\\ &=\frac{\beta}{2}\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2+\frac{1}{2}(\beta\mathbf{t}^T\Phi\mathbf{m}_N-\beta\mathbf{m}_N^T\Phi^T\Phi\mathbf{m}_N)\\ &=\frac{\beta}{2}\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2+\frac{1}{2}(\mathbf{m}_N^T(\alpha I_M+\beta\Phi^T\Phi)\mathbf{m}_N-\beta\mathbf{m}_N^T\Phi^T\Phi\mathbf{m}_N)\\ &=\frac{\beta}{2}\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2+\frac{\alpha}{2}\mathbf{m}_N^T\mathbf{m}_N \end{aligned} \]

结合上面两个结果可以恢复公式 3.86。

Comment.
直接使用高斯线性模型可以得到 \(p(\mathbf{t}|\alpha,\beta)\) 更简洁的表达式，为什么不就此进行直接优化？

Exercise 3.20

Hint.

\[\mathcal{L}(\alpha,\beta,\mathbf{m}_N) =\frac{M}{2}\ln\alpha +\frac{N}{2}\ln \beta-E(\mathbf{m}_N)-\frac{1}{2}\ln|A|+\text{const.} \]

其中，\(E(\mathbf{m}_N)=\frac{\beta}{2}\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2+\frac{\alpha}{2}\mathbf{m}_N^T\mathbf{m}_N,A=\alpha I+\beta\Phi^T\Phi\)。下面计算 \(\frac{\partial \ln |A|}{\partial \alpha}\)。记 \(\Phi^T\Phi\) 的特征值矩阵为 \(\Lambda\)，则 \(|A|=|\alpha I+\beta\Lambda|=\prod_{i=1}^M (\alpha+\beta\lambda_i)\)，故

\[\frac{\partial \ln |A|}{\partial \alpha}=\sum^M_{i=1}\frac{1}{\alpha+\beta\lambda_i}. \]

故

\[\frac{\partial \mathcal{L}}{\partial \alpha}=\frac{M}{2\alpha}-\frac{1}{2}\mathbf{m}_N^T\mathbf{m}_N-\frac{1}{2}\sum^M_{i=1}\frac{1}{\alpha+\beta\lambda_i}, \]

令 \(\frac{\partial \mathcal{L}}{\partial \alpha}=0\)，移项有

\[\alpha\mathbf{m}_N^T\mathbf{m}_N=M-\sum^M_{i=1}\frac{1}{1+\alpha^{-1}\beta\lambda_i} \]

故有关于 \(\alpha\) 的隐式方程

\[\alpha=\frac{M-\sum^M_{i=1}\frac{1}{1+\alpha^{-1}\beta\lambda_i}}{\mathbf{m}_N^T\mathbf{m}_N} \]

实际求解中迭代更新进行求解，即

\[\alpha_{\text{new}}=\frac{M-\sum^M_{i=1}\frac{1}{1+\alpha_{\text{old}}^{-1}\beta\lambda_i}}{\mathbf{m}_N^T\mathbf{m}_N}. \]

Comment.
迭代求解的收敛性未予以证明。

Exercise 3.21

Hint.
把行列式按代数余子式展开，求微分得到 \(\text{d}\,|A|=\text{tr}(A^*\text{d}\,A)\)，其中 \(A^*=|A|A^{-1}\) 为伴随矩阵。故

\[\text{d}\,\ln |A|=\frac{1}{|A|}\text{tr}(|A|A^{-1}\text{d}\,A)=\text{tr}(A^{-1}\text{d}\,A). \]

Solution.

\[\begin{aligned} \frac{\partial \ln |A|}{\partial \alpha} &=\text{tr}(A^{-1}\frac{\partial A}{\partial \alpha})\\ &=\text{tr}(A^{-1}I)\\ &=\text{tr}(A^{-1})\\ &=\sum\lambda(A^{-1})\\ &=\sum\lambda(A)^{-1}\\ \end{aligned} \]

即得到了与习题 3.20 一致的结论。

Exercise 3.22

Hint.

\[\begin{aligned} \frac{\partial \mathcal{L}}{\partial \beta} &=\frac{N}{2\beta}-\frac{1}{2}\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2-\frac{1}{2}\sum^M_{i=1}\frac{\lambda_i}{\alpha+\beta\lambda_i}\\ &=\frac{N}{2\beta}-\frac{1}{2}\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2-\frac{1}{2}\sum^M_{i=1}\frac{1}{\beta}\left(1-\frac{\alpha}{\alpha+\beta\lambda_i}\right)\\ &=\frac{N}{2\beta}-\frac{1}{2}\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2-\frac{1}{2\beta}\left(M-\sum^M_{i=1}\frac{1}{1+\alpha^{-1}\beta\lambda_i}\right)\\ \end{aligned} \]

令 \(\frac{\partial \mathcal{L}}{\partial \beta}=0\)，移项整理得到关于 \(\beta\) 的隐式方程,

\[\beta=\frac{N-\left(M-\sum^M_{i=1}\frac{1}{1+\alpha^{-1}\beta\lambda_i}\right)}{\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2} \]

由此定义迭代更新规则

\[\beta_{\text{new}}=\frac{N-\left(M-\sum^M_{i=1}\frac{1}{1+\alpha^{-1}\beta_{\text{old}}\lambda_i}\right)}{\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2} \]

Exercise 3.23

Hint.

\[\begin{aligned} p(\mathbf{t})& =\int p(\mathbf{t}|\mathbf{w},\beta)p(\mathbf{w},\beta)\text{d}\,\mathbf{w}\text{d}\,\beta\\ &=\int \mathcal{N}(\mathbf{t}|\Phi\mathbf{w},\beta^{-1}I_N)\mathcal{N}(\mathbf{w}|\mathbf{m}_0,\beta^{-1}\mathbf{S}_0)\text{Gam}(\beta|a_0,b_0)\text{d}\,\mathbf{w}\text{d}\,\beta\\ &=\int \text{Gam}(\beta|a_0,b_0)\text{d}\,\beta\int \mathcal{N}(\mathbf{t}|\Phi\mathbf{w},\beta^{-1}I_N)\mathcal{N}(\mathbf{w}|\mathbf{m}_0,\beta^{-1}\mathbf{S}_0)\text{d}\,\mathbf{w}\\ &=\int \mathcal{N}(\mathbf{t}|\Phi\mathbf{m}_0,\beta^{-1}(I_N+\Phi\mathbf{S}_0\Phi^T))\text{Gam}(\beta|a_0,b_0)\text{d}\,\beta\\ &=\frac{b_0^{a_0}}{(2\pi)^{N/2}\Gamma(a_0)|I_N+\Phi\mathbf{S}_0\Phi^T|^{1/2}}\\ &\quad\,\int \beta^{N/2+a_0-1}e^{-b_0\beta}\exp\left\{ -\beta\times \frac{1}{2}(\mathbf{t}-\Phi\mathbf{m}_0)^T(I_N+\Phi\mathbf{S}_0\Phi^T)^{-1}(\mathbf{t}-\Phi\mathbf{m}_0)\right\}\text{d}\,\beta\\ \end{aligned} \]

注意到

\[\begin{aligned} |I_N+\Phi\mathbf{S}_0\Phi^T| &=|I_M+\mathbf{S}_0\Phi^T\Phi|\\ &=|\mathbf{S}_0(\mathbf{S}_0^{-1}+\Phi^T\Phi)|\\ &=|\mathbf{S}_0\mathbf{S}^{-1}_N|\\ \end{aligned} \]

另外，

\[\begin{aligned} &\quad\,(\mathbf{t}-\Phi\mathbf{m}_0)^T(I_N+\Phi\mathbf{S}_0\Phi^T)^{-1}(\mathbf{t}-\Phi\mathbf{m}_0)\\ &=(\mathbf{t}-\Phi\mathbf{m}_0)^T(I_N-\Phi(\mathbf{S}_0^{-1}+\Phi^T\Phi)^{-1}\Phi^T)(\mathbf{t}-\Phi\mathbf{m}_0)\\ &=(\mathbf{t}-\Phi\mathbf{m}_0)^T(I_N-\Phi\mathbf{S}_N\Phi^T)(\mathbf{t}-\Phi\mathbf{m}_0)\\ &=\mathbf{t}^T\mathbf{t}-\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+(\Phi\mathbf{m}_0)^T(I_N-\Phi\mathbf{S}_N\Phi^T)(\Phi\mathbf{m}_0)-2\mathbf{t}^T(I_N-\Phi\mathbf{S}_N\Phi^T)(\Phi\mathbf{m}_0)\\ &=\mathbf{t}^T\mathbf{t}-\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+\mathbf{m}_0^T(\Phi^T\Phi-\Phi^T\Phi\mathbf{S}_N\Phi^T\Phi)\mathbf{m}_0-2(\mathbf{t}^T\Phi-\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\Phi)\mathbf{m}_0\\ &=\mathbf{t}^T\mathbf{t}-\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+\mathbf{m}_0^T(\Phi^T\Phi)(I_M-\mathbf{S}_N\Phi^T\Phi)\mathbf{m}_0-2\mathbf{t}^T\Phi(I_M-\mathbf{S}_N\Phi^T\Phi)\mathbf{m}_0\\ &=\mathbf{t}^T\mathbf{t}-\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+\mathbf{m}_0^T(\mathbf{S}_N^{-1}-\mathbf{S}_0^{-1})\mathbf{S}_N\mathbf{S}_0^{-1}\mathbf{m}_0-2\mathbf{t}^T\Phi\mathbf{S}_N\mathbf{S}_0^{-1}\mathbf{m}_0\\ &=\mathbf{t}^T\mathbf{t}-\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}_0^{-1}\mathbf{m}_0-\mathbf{m}_0^T\mathbf{S}_0^{-1}\mathbf{S}_N\mathbf{S}_0^{-1}\mathbf{m}_0-2\mathbf{t}^T\Phi\mathbf{S}_N\mathbf{S}_0^{-1}\mathbf{m}_0\\ &=\mathbf{t}^T\mathbf{t}-\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}_0^{-1}\mathbf{m}_0-(\mathbf{S}_N^{-1}\mathbf{m}_N-\Phi^T\mathbf{t})^T\mathbf{S}_N(\mathbf{S}_N^{-1}\mathbf{m}_N-\Phi^T\mathbf{t})-2\mathbf{t}^T\Phi\mathbf{S}_N\mathbf{S}_0^{-1}\mathbf{m}_0\\ &=\mathbf{t}^T\mathbf{t}-\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}_0^{-1}\mathbf{m}_0-\mathbf{m}_N^T\mathbf{S}_N^{-1}\mathbf{m}_N+\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+2\mathbf{t}^T\Phi\mathbf{S}_N\mathbf{S}_0^{-1}\mathbf{m}_0-2\mathbf{t}^T\Phi\mathbf{S}_N\mathbf{S}_0^{-1}\mathbf{m}_0\\ &=\mathbf{t}^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}_0^{-1}\mathbf{m}_0-\mathbf{m}_N^T\mathbf{S}_N^{-1}\mathbf{m}_N\\ \end{aligned} \]

故

\[\begin{aligned} &\quad\,\int \beta^{N/2+a_0-1}e^{-b_0\beta}\exp\left\{ -\beta\times \frac{1}{2}(\mathbf{t}-\Phi\mathbf{m}_0)^T(I_N+\Phi\mathbf{S}_0\Phi^T)^{-1}(\mathbf{t}-\Phi\mathbf{m}_0)\right\}\text{d}\,\beta\\ &\quad\,\int \beta^{a_N}\exp\left\{ -\beta\times \left(b_0+\frac{1}{2}(\mathbf{t}^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}_0^{-1}\mathbf{m}_0-\mathbf{m}_N^T\mathbf{S}_N^{-1}\mathbf{m}_N)\right)\right\}\text{d}\,\beta\\ &=\int \beta^{a_N}e^{-b_N\beta}\text{d}\,\beta\\ &=\Gamma(a_N)b_N^{-a_N} \end{aligned} \]

故

\[p(\mathbf{t})=p(\mathbf{t})=\frac{1}{(2\pi)^{N/2}}\frac{|\mathbf{S}_N|^{1/2}}{|\mathbf{S}_0|^{1/2}}\frac{\Gamma(a_N)}{\Gamma(a_0)}\frac{b_0^{a_0}}{b_N^{a_N}}. \]

Comment.
上述方法基于高斯线性模型的结论来做，但是后期推导十分繁琐且不直观，可能直接积分计算更简便。

Exercise 3.24

Solution.

\[\begin{aligned} p(\mathbf{t}) &=\frac{p(\mathbf{t}|\mathbf{w},\beta)p(\mathbf{w},\beta)}{p(\mathbf{w},\beta|\mathbf{t})}\\ &=\frac{\mathcal{N}(\mathbf{t}|\Phi\mathbf{w},\beta^{-1}I_N)\mathcal{N}(\mathbf{w}|\mathbf{m}_0,\beta^{-1}\mathbf{S}_0)\text{Gam}(\beta|a_0,b_0)}{\mathcal{N}(\mathbf{w}|\mathbf{m}_N,\beta^{-1}\mathbf{S}_N)\text{Gam}(\beta|a_N,b_N)}\\ &=\frac{\mathcal{N}(\mathbf{t}|\Phi\mathbf{w},\beta^{-1}I_N)\mathcal{N}(\mathbf{w}|\mathbf{m}_0,\beta^{-1}\mathbf{S}_0)}{\mathcal{N}(\mathbf{w}|\mathbf{m}_N,\beta^{-1}\mathbf{S}_N)}\frac{\text{Gam}(\beta|a_0,b_0)}{\text{Gam}(\beta|a_N,b_N)}\\ &=\frac{1}{(2\pi)^{N/2}}\beta^{N/2}\frac{|\mathbf{S}_N|^{1/2}}{|\mathbf{S}_0|^{1/2}}\exp\left\{-\frac{\beta}{2}\left(\|\mathbf{t}-\Phi\mathbf{w}\|^2_2+(\mathbf{w}-\mathbf{m}_0)^T\mathbf{S}_0^{-1}(\mathbf{w}-\mathbf{m}_0)-(\mathbf{w}-\mathbf{m}_N)^T\mathbf{S}_N^{-1}(\mathbf{w}-\mathbf{m}_N)\right)\right\}\\ &\quad\,\times\frac{\Gamma(a_N)}{\Gamma(a_0)}\frac{b_0^{a_0}}{b_N^{a_N}}\beta^{a_0-a_N}e^{(b_N-b_0)\beta} \end{aligned} \]

指数部分

\[\begin{aligned} &\quad\,-\frac{\beta}{2}\left(\|\mathbf{t}-\Phi\mathbf{w}\|^2_2+(\mathbf{w}-\mathbf{m}_0)^T\mathbf{S}_0^{-1}(\mathbf{w}-\mathbf{m}_0)-(\mathbf{w}-\mathbf{m}_N)^T\mathbf{S}_N^{-1}(\mathbf{w}-\mathbf{m}_N)+2(b_N-b_0)\right)\\ &=-\frac{\beta}{2}\left(\mathbf{w}^T(\Phi^T\Phi+\mathbf{S}_0^{-1}-\mathbf{S}_N^{-1})\mathbf{w}+2(\mathbf{S}_N^{-1}\mathbf{m}_N-\Phi^T\mathbf{t}-\mathbf{S}_0^{-1}\mathbf{m}_0)^T\mathbf{w}\right)\\ &=0 \end{aligned} \]

其中，两个等号的依据来源于习题 3.12 中关于 \(b_n,\mathbf{S}_N\) 的结论。
注意到 \(a_N-a_0=\frac{N}{2}\)，故关于 \(\beta\) 的指数项抵消，所以有

\[p(\mathbf{t})=\frac{1}{(2\pi)^{N/2}}\frac{|\mathbf{S}_N|^{1/2}}{|\mathbf{S}_0|^{1/2}}\frac{\Gamma(a_N)}{\Gamma(a_0)}\frac{b_0^{a_0}}{b_N^{a_N}} \]

Comment.
本题需要利用 \(a_0,a_n,b_0,b_N,\mathbf{m}_0,\mathbf{m}_N,\mathbf{S}_0,\mathbf{S}_0\) 间的关系式。

posted @ 2021-01-29 00:01 Rotopia 阅读(963) 评论(0) 编辑收藏举报

刷新页面返回顶部

Rotopia

PRML第三章习题答案

Chapter 3. Linear Models for Regression

习题简述

习题详解

Exercise 3.3

Exercise 3.4

Exercise 3.5

Exercise 3.6

Exercise 3.8

Exercise 3.9

Exercise 3.10

Exercise 3.11

Exercise 3.12

Exercise 3.13

Exercise 3.14

Exercise 3.15

Exercise 3.16

Exercise 3.20

Exercise 3.21

Exercise 3.22

Exercise 3.23

Exercise 3.24

公告