Chapter 3. Linear Models for Regression
更新日志(截至20210710)
- 20210710:添加习题 3.15-3.16,3.20-3.24 的详解
- 20210706:添加习题 3.3,3.5-3.6,3.8-3.10,3.12-3.13 的详解
- 20210313:添加习题简述,添加习题 3.4,3.14 的详解
- 20210127:首次提交,含习题 3.11 的详解
习题简述
- 线性回归
- 3.1:\(\text{tanh}\) 可由 \(\sigma\) 线性变换得到
- 3.2:最小二乘解为正交投影
- 3.3:加权最小二乘对应数据依赖的噪声或重复数据
- 3.4:带噪声的输入相当于权重正则,类别神经网络的数据增强
- 3.5:带权重正则的最小二乘等同于带约束优化
- 3.6:多元线性回归的极大似然估计
- 3.7:权重的最大后验估计
- 3.8:线性回归的序列学习
- 3.9:利用高斯线性模型证明3.8
- 3.10:计算预测分布
- 3.11:证明后验方差随数据量增大而减小
- 3.12:权重分布的共轭先验
- 3.13:证明基于 Gaussian-gamma 先验的权重分布的预测分布是 Student's t 分布
- 3.14:正交基函数诱导的等价核的性质
- 经验贝叶斯
- 3.15-3.19:evidence 的对数似然
- 3.20:推导 \(\alpha\) 的优化过程
- 3.21:利用行列式对数的导数优化 \(\alpha\)
- 3.22:推导 \(\beta\) 的优化过程
- 3.23:计算 evidence 的边际分布
- 3.24:用贝叶斯公式重新推导 3.23
习题详解
Exercise 3.3
Hint.
\[\begin{aligned}
E_D(\mathbf{w})
&=\frac{1}{2}\sum^N_{n=1}r_n\|\mathbf{t}_n-W^T\phi(\mathbf{x}_n)\|^2_2\\
&=-\sum^N_{n=1}\ln\mathcal{N}(\mathbf{t}_n|W^T\phi(\mathbf{x}_n),r_n^{-1}I)+\text{const.}
\end{aligned}
\]
第一个等号可以把 \(r_n\) 理解为样本权重,第二个等号可以把 \(r_n\) 理解为样本噪声的精度(precision)。
Comment.
Exercise 3.4
Solution.
由于样本独立,噪声与输入独立,只需考虑一个样本的情形。
\[\begin{aligned}
\underset{\epsilon}{\mathbb{E}}\left[(w^T(x+\epsilon)-t)^2\right]
&= \underset{\epsilon}{\mathbb{E}}\left[((w^Tx-t)+w^T\epsilon)^2\right]\\
&=\underset{\epsilon}{\mathbb{E}}\left[(w^Tx-t)^2\right] + \underset{\epsilon}{\mathbb{E}}\left[(w^T\epsilon)(\epsilon^Tw)\right] + \underset{\epsilon}{\mathbb{E}}\left[ (w^Tx-t)w^T\epsilon\right]\\
&=(w^Tx-t)^2 + w^T\underset{\epsilon}{\mathbb{E}}\left[\epsilon\epsilon^T\right]w + (w^Tx-t)w^T\underset{\epsilon}{\mathbb{E}}\left[ \epsilon\right]\\
&=(w^Tx-t)^2 + \sigma^2 w^T w
\end{aligned}
\]
Comment.
该结论对多元输出的情形亦成立,只需用迹技巧展开 F-范数。
Exercise 3.5
Hint.
带约束的优化问题
\[\begin{aligned}
\min_{\mathbf{w}}&\,\frac{1}{2}\|\mathbf{t}-\Phi \mathbf{w}\|^2_2\\
\text{s.t.}&\,\|\mathbf{w}\|^q_q\leq \eta.
\end{aligned}
\]
用拉格朗日乘子法等价转为无约束优化问题
\[\min_{\mathbf{w}}\,\frac{1}{2}\|\mathbf{t}-\Phi \mathbf{w}\|^2_2+\frac{\lambda}{2}(\|\mathbf{w}\|^q_q- \eta)
\]
记最优解为 \(\mathbf{w}^*_\lambda\),若 \(\lambda >0\),则由 KKT 条件有等式约束满足,即 \(\eta=\|\mathbf{w}^*_\lambda\|^q_q\),即 \(\eta\) 对应最优解的 \(q\)-范数。
Comment.
Exercise 3.6
Solution.
\[\begin{aligned}
\mathcal{L}
&=-\sum^N_{n=1}\ln\mathcal{N}(\mathbf{t}_n|\mathbf{W}^T\phi(\mathbf{x}_n),\Sigma)\\
&=\frac{N}{2}\ln|\Sigma|+\frac{1}{2}\sum^N_{n=1}(\mathbf{W}^T\phi(\mathbf{x}_n)-\mathbf{t}_n)^T\Sigma^{-1}(\mathbf{W}^T\phi(\mathbf{x}_n)-\mathbf{t}_n)+\text{const.}\\
&=\frac{N}{2}\ln|\Sigma|+\frac{1}{2}\text{tr}((\Phi \mathbf{W}-\mathbf{T})\Sigma^{-1}(\Phi \mathbf{W}-\mathbf{T})^T)+\text{const.}\\
&=\frac{N}{2}\ln|\Sigma|+\frac{1}{2}\text{tr}(\Sigma^{-1}(\Phi \mathbf{W}-\mathbf{T})^T(\Phi \mathbf{W}-\mathbf{T}))+\text{const.}
\end{aligned}
\]
计算梯度得
\[\begin{aligned}
\frac{\partial \mathcal{L}}{\partial \mathbf{W}}
&=\Phi^T(\Phi \mathbf{W}-\mathbf{T})\Sigma^{-1}=0\\
\frac{\partial \mathcal{L}}{\partial \Sigma^{-1}}&=-\frac{N}{2}\Sigma+\frac{1}{2}(\Phi \mathbf{W}-\mathbf{T})^T(\Phi \mathbf{W}-\mathbf{T})=0
\end{aligned}
\]
故 \(\mathbf{W}_{\text{ML}}=(\Phi^T\Phi)^\dagger\Phi^T\mathbf{T},\Sigma_{\text{ML}}=(\Phi \mathbf{W}_{\text{ML}}-\mathbf{T})^T(\Phi \mathbf{W}_{\text{ML}}-\mathbf{T})\)。
Comment.
求解过程中发现,对于线性回归问题,噪声的协方差矩阵不影响权重矩阵的优化。
Exercise 3.8
Solution.
记 \(\Phi_N=[\phi_1^T;\dots;\phi_N^T],\mathbf{t}_N=[t_1,\dots,t_N]^T\),则已知 \(N\) 个样本的后验估计可以表示为
\[\begin{aligned}
\mathbf{m}_N&=\mathbf{S}_N(\mathbf{S}_0^{-1}\mathbf{m}_0+\beta\Phi^T_N\mathbf{t}_N)\\
\mathbf{S}_N^{-1}&=\mathbf{S}_0^{-1}+\beta\Phi^T_N\Phi_N
\end{aligned}
\]
记 \(\Phi_{N+1}=[\Phi_N;\phi_{N+1}],\mathbf{t}_{N+1}=[\mathbf{t}_N^T,t_{N+1}]^T\),则
\[\begin{aligned}
\Phi^T_{N+1}\Phi_{N+1}&=[\Phi_N^T,\phi_{N+1}]\left[
\begin{matrix}
\Phi_N\\\phi_{N+1}
\end{matrix}
\right]=\Phi^T_N\Phi^T_N+\phi_{N+1}\phi_{N+1}^T\\
\Phi^T_{N+1}\mathbf{t}_{N+1}&=[\Phi_N^T,\phi_{N+1}]\left[
\begin{matrix}
\mathbf{t}_N\\t_{N+1}
\end{matrix}
\right]=\Phi^T_{N}\mathbf{t}_{N}+t_{N+1}\phi_{N+1}
\end{aligned}
\]
故
\[\begin{aligned}
\mathbf{S}_{N+1}^{-1}
&=\mathbf{S}_0^{-1}+\beta\Phi^T_{N+1}\Phi_{N+1}\\
&=\mathbf{S}_0^{-1}+\beta\Phi^T_{N}\Phi_{N}+\beta\phi_{N+1}\phi_{N+1}^T\\
&=\mathbf{S}_{N}^{-1}+\beta\phi_{N+1}\phi_{N+1}^T
\end{aligned}
\]
另外
\[\begin{aligned}
\mathbf{m}_{N+1}&=\mathbf{S}_{N+1}(\mathbf{S}_0^{-1}\mathbf{m}_0+\beta\Phi^T_{N+1}\mathbf{t}_{N+1})\\
&=\mathbf{S}_{N+1}(\mathbf{S}_0^{-1}\mathbf{m}_0+\beta\Phi^T_{N}\mathbf{t}_{N}+\beta t_{N+1}\phi_{N+1})\\
&=\mathbf{S}_{N+1}(\mathbf{S}_{N}^{-1}\mathbf{m}_N+\beta t_{N+1}\phi_{N+1})
\end{aligned}
\]
即得到了增加第 \(N+1\) 个样本时的更新公式。可以看到,递推式和通项公式形式上十分接近。
Exercise 3.9
Solution.
将序列估计写为高斯线性模型为
\[\begin{aligned}
p(\mathbf{w})&=\mathcal{N}(\mathbf{w}|\mathbf{m}_N,(\mathbf{S}_N^{-1})^{-1})\\
p(t_{N+1}|\mathbf{w})&=\mathcal{N}(\mathbf{w}|\phi_{N+1}^T\mathbf{w},(\beta I)^{-1})
\end{aligned}
\]
由高斯线性模型的结论,
\[\begin{aligned}
p(\mathbf{w}|t_{N+1})
&=\mathcal{N}(\mathbf{w}|\mathbf{S}_{N+1}(\phi_{N+1}\beta I t_{N+1}+\mathbf{S}_N^{-1}\mathbf{m}_N),\mathbf{S}_{N+1})\\
&=\mathcal{N}(\mathbf{w}|\mathbf{S}_{N+1}(\mathbf{S}_N^{-1}\mathbf{m}_N+\beta\phi_{N+1}t_{N+1}),\mathbf{S}_{N+1})
\end{aligned}
\]
其中 \(\mathbf{S}_{N+1}=(\mathbf{S}_{N}+\beta\Phi_{N+1}\phi_{N+1}^T)^{-1}\),结果与上题结论一致。
Comment.
本题提供了线性回归序列更新的一个重要观点,即将其视为线性高斯模型。
Exercise 3.10
Solution.
\(p(t|\mathbf{w},\beta)=\mathcal{N}(t|\mathbf{w}^T\phi,\beta^{-1}),p(\mathbf{w}|\mathbf{t},\alpha,\beta)=\mathcal{N}(\mathbf{w}|\mathbf{m}_N,\mathbf{S}_N)\) 可视为高斯线性模型 \(t=\phi^T\mathbf{w}\),已知 \(t|\mathbf{w},\mathbf{w}\) 的分布,求 \(t\) 的分布。套用高斯线性模型的结论有
\[p(t|\mathbf{t},\alpha,\beta)=\mathcal{N}(t|\phi^T\mathbf{m}_N,\beta^{-1}+\phi^T\mathbf{S}_N\phi).
\]
Exercise 3.11
Hint.
记\(\Phi_N = [\phi^T_0;\dots;\phi^T_N]\)
\[\begin{aligned}
S_{N+1}^{-1}
&=S_0^{-1}+\beta\Phi^T_{N+1}\Phi_{N+1}\\
&=S_0^{-1}+\beta [\Phi_N^T,\phi_{N+1}]
\left[
\begin{matrix}
\Phi_N\\
\phi^T_{N+1}
\end{matrix}
\right]\\
&=S_0^{-1}+\beta(\Phi_N^T\Phi_N + \phi_{N+1}\phi^T_{N+1})\\
&=S_N^{-1}+v v^T\quad(v=\sqrt{\beta}\phi_{N+1})
\end{aligned}
\]
根据提示\((M+v v^T)^{-1}=M^{-1}-\frac{(M^{-1}v)(v^T M^{-1})}{1+v^T M^{-1}v}\),\((M+v v^T)^{-1}\preceq M^{-1}\),令\(M=S_N^{-1}\),则有\(S_{N+1}\preceq S_N\),则有\(\sigma^2_{N+1}\leq \sigma^2_{N}\)。
Exercise 3.12
Solution.
由正文公式 3.10
,
\[\ln p(\mathbf{t}|\mathbf{w},\beta)
= \frac{N}{2}\ln \beta-\frac{N}{2}\ln 2\pi -\frac{\beta}{2}\|\Phi\mathbf{w}-\mathbf{t}\|^2_2
\]
故对于 \(\beta\),
\[p(\mathbf{t}|\mathbf{w},\beta)
\propto \beta^{N/2}e^{-\frac{1}{2}\|\Phi\mathbf{w}-\mathbf{t}\|^2_2\beta}
\]
即关于 \(\beta\) 的共轭先验为 gamma 分布;
对于 \(\mathbf{w}\),
\[p(\mathbf{t}|\mathbf{w},\beta)
\propto e^{-\frac{1}{2}(\mathbf{w}-\sqrt{\Phi^T\Phi}^{-1}\mathbf{t})^T(\beta\Phi^T\Phi)(\mathbf{w}-\sqrt{\Phi^T\Phi}^{-1}\mathbf{t})}
\]
即关于 \(\mathbf{w}\) 的共轭先验为高斯分布,因此,关于 \(\mathbf{w},\beta\) 的共轭先验为 normal-gamma 分布,记作
\[p(\mathbf{w},\beta)=\mathcal{N}(\mathbf{w}|\mathbf{m}_0,\beta^{-1}\mathbf{S}_0)\text{Gam}(\beta|a_0,b_0)
\]
其后验分布
\[\begin{aligned}
\ln p(\mathbf{w},\beta|\mathbf{t})
&= p(\mathbf{t}|\mathbf{w},\beta)p(\mathbf{w},\beta)+\text{const.}\\
&=\frac{N}{2}\ln \beta-\frac{N}{2}\ln 2\pi -\frac{\beta}{2}\|\Phi\mathbf{w}-\mathbf{t}\|^2_2\\
&\quad\,\, +\frac{M}{2}\ln \beta-\frac{1}{2}\ln |\mathbf{S}_0|-\frac{\beta}{2}(\mathbf{w}-\mathbf{m}_0)\mathbf{S}^{-1}_0(\mathbf{w}-\mathbf{m}_0)\\
&\quad\,\, +a_0\ln b_0 + (a_0-1)\ln \beta-b_0\beta+\text{const.}\\
&=\left(\frac{N+M}{2}+(a_0-1)\right)\ln\beta\\
&\quad\,\, -\frac{\beta}{2}\mathbf{w}^T(\mathbf{S}_0^{-1}+\Phi^T\Phi)\mathbf{w}+\beta(\mathbf{S}_0^{-1}\mathbf{m}_0+\Phi^T\mathbf{t})^T\mathbf{w}-\frac{\beta}{2}(\mathbf{t}^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}^{-1}_0\mathbf{m}_0+2b_0)+\text{const.}
\end{aligned}
\]
其中,三个等号右边的 \(\text{const.}\) 均代表与 \(\beta,\mathbf{w}\) 无关的常数项,未必相等。
注意到 \(\ln p(\mathbf{w},\beta|\mathbf{t})=\ln p(\mathbf{w}|\beta,\mathbf{t})+\ln p(\beta|\mathbf{t})\),下面分别考虑 \(\mathbf{w}|\beta\) 和 \(\beta\)。对于 \(\mathbf{w}|\beta\),由最后一个等号可知
\[p(\mathbf{w}|\beta,\mathbf{t})=\mathcal{N}(\mathbf{w}|(\mathbf{S}_0^{-1}+\Phi^T\Phi)^{-1}(\mathbf{S}_0^{-1}\mathbf{m}_0+\Phi^T\mathbf{t}),\beta^{-1}(\mathbf{S}_0^{-1}+\Phi^T\Phi)^{-1})
\]
即
\[\begin{aligned}
\mathbf{m}_N&=\mathbf{S}_N(\mathbf{S}_0^{-1}\mathbf{m}_0+\Phi^T\mathbf{t})\\
\beta\mathbf{S}_N^{-1}&=\beta(\mathbf{S}_0^{-1}+\Phi^T\Phi)
\end{aligned}
\]
z则
\[\begin{aligned}
\ln p(\beta|\mathbf{t})
&=\ln p(\mathbf{w},\beta|\mathbf{t})-\ln p(\mathbf{w}|\beta,\mathbf{t})\\
&=\left(\frac{N}{2}+(a_0-1)\right)\ln\beta-\frac{\beta}{2}(\mathbf{t}^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}^{-1}_0\mathbf{m}_0-\mathbf{m}_N^T\mathbf{S}^{-1}_N\mathbf{m}_N+2b_0)+\text{const.}
\end{aligned}
\]
记
\[\begin{aligned}
a_N&=a_0+\frac{N}{2}\\
b_N&=b_0+\frac{1}{2}(\mathbf{t}^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}^{-1}_0\mathbf{m}_0-\mathbf{m}_N^T\mathbf{S}^{-1}_N\mathbf{m}_N)
\end{aligned}
\]
则
\[p(\beta|\mathbf{t})=\text{Gam}(\beta|a_N,b_N)
\]
Comment.
- 通过似然函数可以得到共轭先验的函数形式,通过比对相关项得出分布的参数
- 后验分布为 \(\mathbf{w},t\) 的联合分布,拆分成条件分布易于确定分布参数
Exercise 3.13
Solution.
\[\begin{aligned}
p(t|\mathbf{t})
&=\int\int p(t|\mathbf{w},\beta)p(\mathbf{w},\beta|\mathbf{t})\text{d}\,\mathbf{w}\,\text{d}\,\beta\\
&=\int\int \mathcal{N}(t|\mathbf{w}^T\phi,\beta^{-1})\mathcal{N}(\mathbf{w}|\mathbf{m}_N,\beta^{-1}\mathbf{S}_N)\text{Gam}(\beta|a_N,b_N)\text{d}\,\mathbf{w}\,\text{d}\,\beta\\
&=\int\text{Gam}(\beta|a_N,b_N)\text{d}\,\beta\int \mathcal{N}(t|\mathbf{w}^T\phi,\beta^{-1})\mathcal{N}(\mathbf{w}|\mathbf{m}_N,\beta^{-1}\mathbf{S}_N)\text{d}\,\mathbf{w}\\
&=\int\mathcal{N}(t|\phi^T\mathbf{m}_N,\beta^{-1}+\beta\phi^T\mathbf{S}_N\phi)\text{Gam}(\beta|a_N,b_N)\text{d}\,\beta\\
&=\int\mathcal{N}(t|\phi^T\mathbf{m}_N,\beta^{-1}+\phi^T(\beta\mathbf{S}_0^{-1}+\beta\Phi^T_N\Phi_N)^{-1}\phi)\text{Gam}(\beta|a_N,b_N)\text{d}\,\beta\quad(\beta\mathbf{S}^{-1}_N=\beta(\mathbf{S}^{-1}_0+\Phi^T_N\Phi_N))\\
&=\int\mathcal{N}(t|\phi^T\mathbf{m}_N,\beta^{-1}(1+\phi^T(\mathbf{S}_0^{-1}+\Phi^T_N\Phi_N)^{-1}\phi))\text{Gam}(\beta|a_N,b_N)\text{d}\,\beta\\
&=\int\mathcal{N}(t|\phi^T\mathbf{m}_N,\beta^{-1}s)\text{Gam}(\beta|a_N,b_N)\text{d}\,\beta\quad(s=(1+\phi^T(\mathbf{S}_0^{-1}+\Phi^T_N\Phi_N)^{-1}\phi))\\
&=\int\mathcal{N}(t|\phi^T\mathbf{m}_N,\gamma^{-1})\text{Gam}(\gamma s|a_N,b_N)\text{d}\,\gamma s\quad(\gamma=\beta s^{-1})\\
\end{aligned}
\]
其中第 5 个等号由习题 3.12 的结论得到。
注意到
\[\begin{aligned}
\text{Gam}(\gamma s|a,b)
&=\frac{1}{\Gamma(a)}b^a(\gamma s)^{a-1}e^{-b\gamma s}\\
&=\frac{1}{s\Gamma(a)}(bs)^a(\gamma)^{a-1}e^{-(bs)\gamma}\\
&=\frac{1}{s}\text{Gam}(\gamma|a,bs)
\end{aligned}
\]
故
\[\begin{aligned}
p(t|\mathbf{t})
&=\int\mathcal{N}(t|\phi^T\mathbf{m}_N,\gamma^{-1})\text{Gam}(\gamma s|a_N,b_N)\text{d}\,\gamma s\\
&=\int\mathcal{N}(t|\phi^T\mathbf{m}_N,\gamma^{-1})\text{Gam}(\gamma|a_N,sb_N)\text{d}\,\gamma\\
&=\text{St}(t|\phi^T\mathbf{m}_N,\frac{a_N}{sb_N},2a_N)
\end{aligned}
\]
Comment.
本题用到了 gamma 分布的概率密度函数的以下性质
\[\text{Gam}(\lambda s|a,b)=\frac{1}{s}\text{Gam}(\lambda|a,bs).
\]
Exercise 3.14
Solution.
正交性条件即矩阵 \(\Psi\) 的列构成幺正基,在样本数 \(N\) 大于特征维度 \(M\) 的前提下,若 \(\Phi\) 列线性无关,则可列正交化,进一步可以归一化。设 \(\Phi\) 经变换 \(P\) 得到正交矩阵 \(\Psi\),即 \(\Psi = \Phi P\),且 \(\Psi^T\Psi=I\)。
线性回归的等价核
\[\begin{aligned}
k(x,x')
&=\beta\phi(x)^T S_N \phi(x')\\
&=\beta\phi(x)^T(\beta\Phi^T\Phi)^{-1}\phi(x')\quad(\alpha=0)\\
&=\phi(x)^T(P^T\Psi^T\Psi P)^{-1}\phi(x')\quad(\Psi=\Phi P)\\
&=\phi(x)^T P^{-1} {P^{-1}}^T\phi(x')\\
&=({P^{-1}}^T\phi(x))^T({P^{-1}}^T\phi(x'))\\
&=\psi(x)^T\psi(x')\quad({P^{-1}}^T\phi(x)=\psi(x))
\end{aligned}
\]
核即样本空间上的内积,上述过程给出了其在正交基下的表示。
\[\begin{aligned}
\sum^N_{n=1}k(x,x_n)
&=\sum^N_{n=1}\psi(x)^T\psi(x_n)\\
&=\mathbf{1}^T\Psi \psi(x)
\end{aligned}
\]
假设 \(\psi_0\) 为常数函数,由于 \(||\psi_0(X)||_2=1\),故 \(\psi_0(x)\equiv \frac{1}{\sqrt{N}}\),而题目假设 \(\psi_0(x)\equiv 1\) 违反了规范性约束。
故 \(\mathbf{1}^T\Psi \psi(x) = \sqrt{N}\,\psi_0(X)^T\Psi\psi(x)=\sqrt{N}\,\mathbf{e}_0^T\psi(x)=\sqrt{N}\,\psi_0(x)=1\)。
Comment.
核的和约束来自于线性回归的常数项。
Exercise 3.15
Hint.
注意理解本题的意思,是基于经验贝叶斯框架优化得到的 \(\alpha,\beta\),\(E(\mathbf{m}_N)\) 为常数,一般而言其非常数。
由公式 3.92
,\(\alpha^*=\frac{\gamma}{\mathbf{m}_N^T\mathbf{m}_N}\),由公式 3.95
,\((\beta^*)^{-1}=\frac{1}{N-\gamma}\|\Phi\mathbf{m}_N-\mathbf{t}\|^2_2\),代入 \(E(\mathbf{m}_N)\) 的表达式即可得到结果。
Exercise 3.16
Solution.
\(p(\mathbf{t}|\mathbf{w},\beta)=\mathcal{N}(\mathbf{t}|\Phi\mathbf{w},\beta^{-1}I_N),p(\mathbf{w}|\alpha)=\mathcal{N}(\mathbf{w}|0,\alpha^{-1}I_M)\),对于随机变量 \(\mathbf{w},\mathbf{t}|\mathbf{w}\) 由高斯线性模型有
\[p(\mathbf{t}|\alpha,\beta)=\mathcal{N}(\mathbf{t}|0,\beta^{-1}I_N+\alpha^{-1}\Phi\Phi^T)
\]
下面证明其与公式 3.86
相等,需要建立 \(\beta^{-1}I_N+\alpha^{-1}\Phi\Phi^T\) 与 \(\alpha I_M+\beta\Phi^T\Phi\) 的联系。一方面
\[\begin{aligned}
|\beta^{-1}I_N+\alpha^{-1}\Phi\Phi^T|
&=\beta^{-N}|I_N+\alpha^{-1}\beta\Phi\Phi^T|\\
&=\beta^{-N}|I_M+\alpha^{-1}\beta\Phi^T\Phi|\\
&=\alpha^{-M}\beta^{-N}|\alpha I_M+\beta\Phi^T\Phi|
\end{aligned}
\]
其中,第 2 个等号是由公式 C.14
得到。
另一方面,由公式 C.7
,
\[\begin{aligned}
(\beta^{-1}I_N+\alpha^{-1}\Phi\Phi^T)^{-1}
&=\beta I_N - \beta^{2}\Phi(\alpha I_M +\beta\Phi^T\Phi)^{-1}\Phi^T
\end{aligned}
\]
故
\[\begin{aligned}
\frac{1}{2}\mathbf{t}^T(\beta^{-1}I_N+\alpha^{-1}\Phi\Phi^T)^{-1}\mathbf{t}
&=\frac{1}{2}\mathbf{t}^T(\beta I_N - \beta^{2}\Phi(\alpha I_M +\beta\Phi^T\Phi)^{-1}\Phi^T)\mathbf{t}\\
&=\frac{\beta}{2}(\mathbf{t}^T\mathbf{t}-\mathbf{t}^T\Phi\mathbf{m}_N)\quad(\mathbf{m}_N=\beta(\alpha I_M+\beta\Phi^T\Phi)^{-1}\Phi^T\mathbf{t})\\
&=\frac{\beta}{2}(\mathbf{t}^T\mathbf{t}-2\mathbf{t}^T\Phi\mathbf{m}_N+\mathbf{m}_N^T\Phi^T\Phi\mathbf{m}_N+\mathbf{t}^T\Phi\mathbf{m}_N-\mathbf{m}_N^T\Phi^T\Phi\mathbf{m}_N)\\
&=\frac{\beta}{2}\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2+\frac{1}{2}(\beta\mathbf{t}^T\Phi\mathbf{m}_N-\beta\mathbf{m}_N^T\Phi^T\Phi\mathbf{m}_N)\\
&=\frac{\beta}{2}\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2+\frac{1}{2}(\mathbf{m}_N^T(\alpha I_M+\beta\Phi^T\Phi)\mathbf{m}_N-\beta\mathbf{m}_N^T\Phi^T\Phi\mathbf{m}_N)\\
&=\frac{\beta}{2}\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2+\frac{\alpha}{2}\mathbf{m}_N^T\mathbf{m}_N
\end{aligned}
\]
结合上面两个结果可以恢复公式 3.86
。
Comment.
直接使用高斯线性模型可以得到 \(p(\mathbf{t}|\alpha,\beta)\) 更简洁的表达式,为什么不就此进行直接优化?
Exercise 3.20
Hint.
\[\mathcal{L}(\alpha,\beta,\mathbf{m}_N)
=\frac{M}{2}\ln\alpha +\frac{N}{2}\ln \beta-E(\mathbf{m}_N)-\frac{1}{2}\ln|A|+\text{const.}
\]
其中,\(E(\mathbf{m}_N)=\frac{\beta}{2}\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2+\frac{\alpha}{2}\mathbf{m}_N^T\mathbf{m}_N,A=\alpha I+\beta\Phi^T\Phi\)。下面计算 \(\frac{\partial \ln |A|}{\partial \alpha}\)。记 \(\Phi^T\Phi\) 的特征值矩阵为 \(\Lambda\),则 \(|A|=|\alpha I+\beta\Lambda|=\prod_{i=1}^M (\alpha+\beta\lambda_i)\),故
\[\frac{\partial \ln |A|}{\partial \alpha}=\sum^M_{i=1}\frac{1}{\alpha+\beta\lambda_i}.
\]
故
\[\frac{\partial \mathcal{L}}{\partial \alpha}=\frac{M}{2\alpha}-\frac{1}{2}\mathbf{m}_N^T\mathbf{m}_N-\frac{1}{2}\sum^M_{i=1}\frac{1}{\alpha+\beta\lambda_i},
\]
令 \(\frac{\partial \mathcal{L}}{\partial \alpha}=0\),移项有
\[\alpha\mathbf{m}_N^T\mathbf{m}_N=M-\sum^M_{i=1}\frac{1}{1+\alpha^{-1}\beta\lambda_i}
\]
故有关于 \(\alpha\) 的隐式方程
\[\alpha=\frac{M-\sum^M_{i=1}\frac{1}{1+\alpha^{-1}\beta\lambda_i}}{\mathbf{m}_N^T\mathbf{m}_N}
\]
实际求解中迭代更新进行求解,即
\[\alpha_{\text{new}}=\frac{M-\sum^M_{i=1}\frac{1}{1+\alpha_{\text{old}}^{-1}\beta\lambda_i}}{\mathbf{m}_N^T\mathbf{m}_N}.
\]
Comment.
迭代求解的收敛性未予以证明。
Exercise 3.21
Hint.
把行列式按代数余子式展开,求微分得到 \(\text{d}\,|A|=\text{tr}(A^*\text{d}\,A)\),其中 \(A^*=|A|A^{-1}\) 为伴随矩阵。故
\[\text{d}\,\ln |A|=\frac{1}{|A|}\text{tr}(|A|A^{-1}\text{d}\,A)=\text{tr}(A^{-1}\text{d}\,A).
\]
Solution.
\[\begin{aligned}
\frac{\partial \ln |A|}{\partial \alpha}
&=\text{tr}(A^{-1}\frac{\partial A}{\partial \alpha})\\
&=\text{tr}(A^{-1}I)\\
&=\text{tr}(A^{-1})\\
&=\sum\lambda(A^{-1})\\
&=\sum\lambda(A)^{-1}\\
\end{aligned}
\]
即得到了与习题 3.20
一致的结论。
Exercise 3.22
Hint.
\[\begin{aligned}
\frac{\partial \mathcal{L}}{\partial \beta}
&=\frac{N}{2\beta}-\frac{1}{2}\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2-\frac{1}{2}\sum^M_{i=1}\frac{\lambda_i}{\alpha+\beta\lambda_i}\\
&=\frac{N}{2\beta}-\frac{1}{2}\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2-\frac{1}{2}\sum^M_{i=1}\frac{1}{\beta}\left(1-\frac{\alpha}{\alpha+\beta\lambda_i}\right)\\
&=\frac{N}{2\beta}-\frac{1}{2}\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2-\frac{1}{2\beta}\left(M-\sum^M_{i=1}\frac{1}{1+\alpha^{-1}\beta\lambda_i}\right)\\
\end{aligned}
\]
令 \(\frac{\partial \mathcal{L}}{\partial \beta}=0\),移项整理得到关于 \(\beta\) 的隐式方程,
\[\beta=\frac{N-\left(M-\sum^M_{i=1}\frac{1}{1+\alpha^{-1}\beta\lambda_i}\right)}{\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2}
\]
由此定义迭代更新规则
\[\beta_{\text{new}}=\frac{N-\left(M-\sum^M_{i=1}\frac{1}{1+\alpha^{-1}\beta_{\text{old}}\lambda_i}\right)}{\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2}
\]
Exercise 3.23
Hint.
\[\begin{aligned}
p(\mathbf{t})&
=\int p(\mathbf{t}|\mathbf{w},\beta)p(\mathbf{w},\beta)\text{d}\,\mathbf{w}\text{d}\,\beta\\
&=\int \mathcal{N}(\mathbf{t}|\Phi\mathbf{w},\beta^{-1}I_N)\mathcal{N}(\mathbf{w}|\mathbf{m}_0,\beta^{-1}\mathbf{S}_0)\text{Gam}(\beta|a_0,b_0)\text{d}\,\mathbf{w}\text{d}\,\beta\\
&=\int \text{Gam}(\beta|a_0,b_0)\text{d}\,\beta\int \mathcal{N}(\mathbf{t}|\Phi\mathbf{w},\beta^{-1}I_N)\mathcal{N}(\mathbf{w}|\mathbf{m}_0,\beta^{-1}\mathbf{S}_0)\text{d}\,\mathbf{w}\\
&=\int \mathcal{N}(\mathbf{t}|\Phi\mathbf{m}_0,\beta^{-1}(I_N+\Phi\mathbf{S}_0\Phi^T))\text{Gam}(\beta|a_0,b_0)\text{d}\,\beta\\
&=\frac{b_0^{a_0}}{(2\pi)^{N/2}\Gamma(a_0)|I_N+\Phi\mathbf{S}_0\Phi^T|^{1/2}}\\
&\quad\,\int \beta^{N/2+a_0-1}e^{-b_0\beta}\exp\left\{ -\beta\times \frac{1}{2}(\mathbf{t}-\Phi\mathbf{m}_0)^T(I_N+\Phi\mathbf{S}_0\Phi^T)^{-1}(\mathbf{t}-\Phi\mathbf{m}_0)\right\}\text{d}\,\beta\\
\end{aligned}
\]
注意到
\[\begin{aligned}
|I_N+\Phi\mathbf{S}_0\Phi^T|
&=|I_M+\mathbf{S}_0\Phi^T\Phi|\\
&=|\mathbf{S}_0(\mathbf{S}_0^{-1}+\Phi^T\Phi)|\\
&=|\mathbf{S}_0\mathbf{S}^{-1}_N|\\
\end{aligned}
\]
另外,
\[\begin{aligned}
&\quad\,(\mathbf{t}-\Phi\mathbf{m}_0)^T(I_N+\Phi\mathbf{S}_0\Phi^T)^{-1}(\mathbf{t}-\Phi\mathbf{m}_0)\\
&=(\mathbf{t}-\Phi\mathbf{m}_0)^T(I_N-\Phi(\mathbf{S}_0^{-1}+\Phi^T\Phi)^{-1}\Phi^T)(\mathbf{t}-\Phi\mathbf{m}_0)\\
&=(\mathbf{t}-\Phi\mathbf{m}_0)^T(I_N-\Phi\mathbf{S}_N\Phi^T)(\mathbf{t}-\Phi\mathbf{m}_0)\\
&=\mathbf{t}^T\mathbf{t}-\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+(\Phi\mathbf{m}_0)^T(I_N-\Phi\mathbf{S}_N\Phi^T)(\Phi\mathbf{m}_0)-2\mathbf{t}^T(I_N-\Phi\mathbf{S}_N\Phi^T)(\Phi\mathbf{m}_0)\\
&=\mathbf{t}^T\mathbf{t}-\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+\mathbf{m}_0^T(\Phi^T\Phi-\Phi^T\Phi\mathbf{S}_N\Phi^T\Phi)\mathbf{m}_0-2(\mathbf{t}^T\Phi-\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\Phi)\mathbf{m}_0\\
&=\mathbf{t}^T\mathbf{t}-\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+\mathbf{m}_0^T(\Phi^T\Phi)(I_M-\mathbf{S}_N\Phi^T\Phi)\mathbf{m}_0-2\mathbf{t}^T\Phi(I_M-\mathbf{S}_N\Phi^T\Phi)\mathbf{m}_0\\
&=\mathbf{t}^T\mathbf{t}-\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+\mathbf{m}_0^T(\mathbf{S}_N^{-1}-\mathbf{S}_0^{-1})\mathbf{S}_N\mathbf{S}_0^{-1}\mathbf{m}_0-2\mathbf{t}^T\Phi\mathbf{S}_N\mathbf{S}_0^{-1}\mathbf{m}_0\\
&=\mathbf{t}^T\mathbf{t}-\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}_0^{-1}\mathbf{m}_0-\mathbf{m}_0^T\mathbf{S}_0^{-1}\mathbf{S}_N\mathbf{S}_0^{-1}\mathbf{m}_0-2\mathbf{t}^T\Phi\mathbf{S}_N\mathbf{S}_0^{-1}\mathbf{m}_0\\
&=\mathbf{t}^T\mathbf{t}-\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}_0^{-1}\mathbf{m}_0-(\mathbf{S}_N^{-1}\mathbf{m}_N-\Phi^T\mathbf{t})^T\mathbf{S}_N(\mathbf{S}_N^{-1}\mathbf{m}_N-\Phi^T\mathbf{t})-2\mathbf{t}^T\Phi\mathbf{S}_N\mathbf{S}_0^{-1}\mathbf{m}_0\\
&=\mathbf{t}^T\mathbf{t}-\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}_0^{-1}\mathbf{m}_0-\mathbf{m}_N^T\mathbf{S}_N^{-1}\mathbf{m}_N+\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+2\mathbf{t}^T\Phi\mathbf{S}_N\mathbf{S}_0^{-1}\mathbf{m}_0-2\mathbf{t}^T\Phi\mathbf{S}_N\mathbf{S}_0^{-1}\mathbf{m}_0\\
&=\mathbf{t}^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}_0^{-1}\mathbf{m}_0-\mathbf{m}_N^T\mathbf{S}_N^{-1}\mathbf{m}_N\\
\end{aligned}
\]
故
\[\begin{aligned}
&\quad\,\int \beta^{N/2+a_0-1}e^{-b_0\beta}\exp\left\{ -\beta\times \frac{1}{2}(\mathbf{t}-\Phi\mathbf{m}_0)^T(I_N+\Phi\mathbf{S}_0\Phi^T)^{-1}(\mathbf{t}-\Phi\mathbf{m}_0)\right\}\text{d}\,\beta\\
&\quad\,\int \beta^{a_N}\exp\left\{ -\beta\times \left(b_0+\frac{1}{2}(\mathbf{t}^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}_0^{-1}\mathbf{m}_0-\mathbf{m}_N^T\mathbf{S}_N^{-1}\mathbf{m}_N)\right)\right\}\text{d}\,\beta\\
&=\int \beta^{a_N}e^{-b_N\beta}\text{d}\,\beta\\
&=\Gamma(a_N)b_N^{-a_N}
\end{aligned}
\]
故
\[p(\mathbf{t})=p(\mathbf{t})=\frac{1}{(2\pi)^{N/2}}\frac{|\mathbf{S}_N|^{1/2}}{|\mathbf{S}_0|^{1/2}}\frac{\Gamma(a_N)}{\Gamma(a_0)}\frac{b_0^{a_0}}{b_N^{a_N}}.
\]
Comment.
上述方法基于高斯线性模型的结论来做,但是后期推导十分繁琐且不直观,可能直接积分计算更简便。
Exercise 3.24
Solution.
\[\begin{aligned}
p(\mathbf{t})
&=\frac{p(\mathbf{t}|\mathbf{w},\beta)p(\mathbf{w},\beta)}{p(\mathbf{w},\beta|\mathbf{t})}\\
&=\frac{\mathcal{N}(\mathbf{t}|\Phi\mathbf{w},\beta^{-1}I_N)\mathcal{N}(\mathbf{w}|\mathbf{m}_0,\beta^{-1}\mathbf{S}_0)\text{Gam}(\beta|a_0,b_0)}{\mathcal{N}(\mathbf{w}|\mathbf{m}_N,\beta^{-1}\mathbf{S}_N)\text{Gam}(\beta|a_N,b_N)}\\
&=\frac{\mathcal{N}(\mathbf{t}|\Phi\mathbf{w},\beta^{-1}I_N)\mathcal{N}(\mathbf{w}|\mathbf{m}_0,\beta^{-1}\mathbf{S}_0)}{\mathcal{N}(\mathbf{w}|\mathbf{m}_N,\beta^{-1}\mathbf{S}_N)}\frac{\text{Gam}(\beta|a_0,b_0)}{\text{Gam}(\beta|a_N,b_N)}\\
&=\frac{1}{(2\pi)^{N/2}}\beta^{N/2}\frac{|\mathbf{S}_N|^{1/2}}{|\mathbf{S}_0|^{1/2}}\exp\left\{-\frac{\beta}{2}\left(\|\mathbf{t}-\Phi\mathbf{w}\|^2_2+(\mathbf{w}-\mathbf{m}_0)^T\mathbf{S}_0^{-1}(\mathbf{w}-\mathbf{m}_0)-(\mathbf{w}-\mathbf{m}_N)^T\mathbf{S}_N^{-1}(\mathbf{w}-\mathbf{m}_N)\right)\right\}\\
&\quad\,\times\frac{\Gamma(a_N)}{\Gamma(a_0)}\frac{b_0^{a_0}}{b_N^{a_N}}\beta^{a_0-a_N}e^{(b_N-b_0)\beta}
\end{aligned}
\]
指数部分
\[\begin{aligned}
&\quad\,-\frac{\beta}{2}\left(\|\mathbf{t}-\Phi\mathbf{w}\|^2_2+(\mathbf{w}-\mathbf{m}_0)^T\mathbf{S}_0^{-1}(\mathbf{w}-\mathbf{m}_0)-(\mathbf{w}-\mathbf{m}_N)^T\mathbf{S}_N^{-1}(\mathbf{w}-\mathbf{m}_N)+2(b_N-b_0)\right)\\
&=-\frac{\beta}{2}\left(\mathbf{w}^T(\Phi^T\Phi+\mathbf{S}_0^{-1}-\mathbf{S}_N^{-1})\mathbf{w}+2(\mathbf{S}_N^{-1}\mathbf{m}_N-\Phi^T\mathbf{t}-\mathbf{S}_0^{-1}\mathbf{m}_0)^T\mathbf{w}\right)\\
&=0
\end{aligned}
\]
其中,两个等号的依据来源于习题 3.12
中关于 \(b_n,\mathbf{S}_N\) 的结论。
注意到 \(a_N-a_0=\frac{N}{2}\),故关于 \(\beta\) 的指数项抵消,所以有
\[p(\mathbf{t})=\frac{1}{(2\pi)^{N/2}}\frac{|\mathbf{S}_N|^{1/2}}{|\mathbf{S}_0|^{1/2}}\frac{\Gamma(a_N)}{\Gamma(a_0)}\frac{b_0^{a_0}}{b_N^{a_N}}
\]
Comment.
本题需要利用 \(a_0,a_n,b_0,b_N,\mathbf{m}_0,\mathbf{m}_N,\mathbf{S}_0,\mathbf{S}_0\) 间的关系式。