Chapter 6. Kernel Methods
更新日志(截至20210808)
- 20210808:添加习题 6.2,6.5-6.9,6.12,6.20-6.23,6.26-6.27 的详解
- 20210325:添加习题简述和习题 6.1,6.10,6.15,6.16,6.18 的详解
- 20210127:首次提交,含习题 6.13,6.17,6.19 的详解
习题简述
- 核表示
- 6.1:证明对偶问题的自变量可以表示为样本特征的线性组合,进而证明对偶的对偶是原问题
- 6.2:感知机学习规则的核表示
- 6.3:将 \(k\)-nn 算法表示成核形式,只需注意到二范数可以用内积表示,而内积对应核函数
- 6.4:含负元但特征值为正的矩阵,即矩阵元素的正负与特征值的正负并无直接关联
- 6.5-6.9:验证构造核的方式
- 6.10:证明由 \(k(x,x')=f(x)f(x')\) 的线性组合定义的函数正比于 \(f(x)\)
- 6.11:证明高斯核的特征映射为无穷维,只需将高斯核分解为若干个指数核的乘积,由指数核是无穷维即可证得结论
- 6.12:集合上的内积
- 6.13:Fisher 核与参数表示无关
- 6.14:高斯分布(固定协方差矩阵)的 Fisher 核为一个马氏距离
- 6.15:核满足柯西不等式
- 6.16:线性模型(\(w^T\phi(x)\))的最优解可表示为训练样本特征的线性组合
- 核密度估计
- 6.17:样本特征带有噪声的核密度估计
- 6.18:核密度估计的条件概率密度、条件均值和条件方差
- 6.19:样本特征和标签均带有噪声的核密度估计
- 高斯过程回归
- 6.20:高斯过程回归新样本的条件均值和协方差,用高斯分布的条件分布即可
- 6.21:若高斯过程的核为特征映射(feature map)的诱导核,则高斯过程等同于贝叶斯线性回归。
- 6.22:高斯过程的预测分布
- 6.23:多预测变量高斯过程的预测分布
- 高斯过程分类
- 6.25:高斯过程分类的优化
- 6.26:高斯过程分类的后验
- 6.27:基于拉普拉斯估计的高斯过程分类的对数似然和梯度
- 其他
习题详解
Exercise 6.1
Solution.
原问题
\[J(w)=\frac{1}{2}\|\Phi w - t\|^2_2 + \frac{\lambda}{2}\|w\|^2_2,
\]
\(\frac{\partial J}{\partial w}=\Phi^T(\Phi w -t) + \lambda w=0\),显然最优解 \(w^*\) 是训练样本 \(\Phi\) 的函数,其可以隐式地表示为 \(\Phi\) 的行的线性组合 \(w^*=\lambda^{-1}\Phi^T(t-\Phi w^*)\),将系数简写为 \(a\),即 \(w^*=\Phi^T a\)。
将 \(w^*\) 回代得到对偶问题
\[\begin{aligned}
J(a)
&=\frac{1}{2}\|\Phi \Phi^T a - t\|^2_2 + \frac{\lambda}{2}\|\Phi^T a\|^2_2\\
&=\frac{1}{2}\|K a - t\|^2_2 + \frac{\lambda}{2}a^T K a\quad(K=\Phi\Phi^T),
\end{aligned}
\]
注意到核 \(K\) 通常不是满秩的,假设样本数量 \(N\) 大于特征维度 \(M\),则 \(\text{rank}(K)\leq N-M\)。记 \(K\) 的象空间为 \(\text{Im}(K)\),则 \(Ka=K\text{Pr}_{\text{Im}(K)} (a)\),即仅有 \(a\) 在 \(\text{Im}(K)\) 上的投影 \(\text{Pr}_{\text{Im}(K)} (a)\) 是有效分量。\(\forall v\in\mathbb{R}^N\),\(Kv=\Phi(\Phi^Tv)\),即 \(K\) 的象空间为 \(\Phi\) 的列张成的线性空间,\(Ka\) 为 \(a\) 在 \(\text{Im}(K)\) 上的投影。记 \(a=\Phi u\),代入对偶问题得
\[\begin{aligned}
J(u)
&=\frac{1}{2}\|K \Phi u - t\|^2_2 + \frac{\lambda}{2}u^T\Phi^T K \Phi u\quad(K=\Phi\Phi^T),\\
&=\frac{1}{2}\|\Phi\Phi^T \Phi u - t\|^2_2 + \frac{\lambda}{2}u^T\Phi^T \Phi\Phi^T \Phi u,\\
&=\frac{1}{2}\|\Phi w - t\|^2_2 + \frac{\lambda}{2}w^Tw,\quad(w=\Phi^T\Phi u=\Phi^Ta)
\end{aligned}
\]
即得到了原优化问题,且保持了 \(w\) 与 \(a\) 之间的映射。
Comment.
- 本题的对偶非拉格朗日对偶,拉格朗日对偶在于原问题的自变量与约束乘子的互相转化,本题的对偶在于参数与训练数据的互相转化,即最优参数可以表示为训练数据的线性组合,优化线性组合的系数相当于优化参数。
- 用样本特征表示参数的动机在于诱导核表示。
Exercise 6.2
Hint.
感知机的学习规则为随机梯度下降,即
\[\mathbf{w}^{(\tau+1)}=\mathbf{w}^{(\tau)}+\eta\phi_n t_n,n\in\mathcal{M},
\]
其中 \(\mathcal{M}\) 表示错分类样本集。则
\[\mathbf{w}^{(\tau)}=\mathbf{w}^{(0)}+\sum \alpha^{(\tau)}_n t_n\phi_n=\mathbf{w}^{(0)}+\Phi^T(\alpha^{(\tau)}\circ \mathbf{t})
\]
若 \(\mathbf{w}^{(0)}\neq 0\),我们总可以像线性回归一样给 \(\phi\) 增加一维吸收该常数项,使得模型可以表示为 \(\phi\) 的线性组合,故假定 \(\mathbf{w}^{(0)}= 0\),此时有
\[\mathbf{w}^{(\tau)}=\Phi^T(\alpha^{(\tau)}\circ \mathbf{t}).
\]
注意到一个样本可能会用来多次更新参数,所以 \(\alpha_n\) 的取值可能互不相同,本题旨在探讨 \(\alpha_n\) 的更新规则。
Solution.
\[\begin{aligned}
y(x_m)
&=\text{sign}(\phi_m^T\mathbf{w})\\
&=\text{sign}(\phi_m^T\Phi^T(\alpha\circ \mathbf{t}))\\
&=\text{sign}([\phi_m^T\phi_1,\dots,\phi^T\phi_N](\alpha\circ \mathbf{t}))\\
&=\text{sign}([k(x_m,x_1),\dots,k(x_m,x_N)](\alpha\circ \mathbf{t}))\\
\end{aligned}
\]
当 \(t_m y(x_m)\leq 0\) 时,按 \(\alpha_m^{(\tau+1)}=\alpha_m^{(\tau)}+\eta\) 更新线性组合的系数。这里只需计算 \(k(x_m,x_n)\) 即可判定是否要更新,即本质上不需要知道特征 \(\phi\),只需知道相应的核函数,这里为感知机的更新提供了另一个角度的设计空间。
Comment.
Exercise 6.5
Hint.
\[\begin{aligned}
f(x)k(x,x')f(x')
&=f(x)\phi^T(x)\phi(x')f(x')\\
&=\psi^T(x)\psi(x')\quad(\psi(x)=f(x)\phi(x))
\end{aligned}
\]
由此证得 6.14
,令 \(f(x)=\sqrt{c}\) 即可得到 6.13
。
Comment.
本题的意义在于,特征映射乘以一个尺度因子之后得到一个新的特征映射,相应地也得到一个新的核函数。
Exercise 6.6
Hint.
\[q(k(x,x'))=\sum^M_{m=0}a_m (k(x,x'))^m
\]
注意到多项式即幂次的线性组合,只需证明核函数的幂次为核函数,核函数的线性组合为核函数即可。前者可以更一般地表述为核函数的乘机是核函数,对应 6.18
,后者对应 6.17
。
对于
\[\exp(k(x,x'))=\sum^\infty_{m=0}\frac{(k(x,x'))^m}{m!}
\]
一方面,上述核可以视为正系数多项式核函数的极限,亦为很函数,另一方面记 \(\phi^T_M(x)\phi_M(x')=\sum^M_{m=0}\frac{(k(x,x'))^m}{m!}\),则 \(\exp(k(x,x'))=\underset{M\to\infty}{\lim} \phi^T_M(x)\phi_M(x')\),若存在 \(\phi_\infty=\underset{M\to\infty}{\lim} \phi_M(x)\),则有 \(\exp(k(x,x'))=\phi^T_\infty\phi_\infty\),即核函数的极限对应特征映射的极限。
Exercise 6.7
6.17
可以通过两个角度来证明,一是半正定矩阵的和仍为半正定矩阵,二是对于有限维特征映射而言
\[\begin{aligned}
k_1(x,x')+k_2(x,x')
&=\phi^T_1(x)\phi_1(x')+\phi^T_2(x)\phi_2(x')\\
&=[\phi^T_1(x),\phi^T_2(x)][\phi^T_1(x'),\phi^T_2(x')]^T\\
&=\psi^T(x)\psi(x')\quad(\psi(x)=[\phi^T_1(x),\phi^T_2(x)]^T)
\end{aligned}
\]
即核函数求和相当于特征映射拼接。
6.18
也可以通过两个角度证明,一是半正定矩阵的 Hadamard 积仍为半正定矩阵,二是对于有限维特征映射而言
\[\begin{aligned}
k_1(x,x')k_2(x,x')
&=\phi^T_1(x)\phi_1(x')\phi^T_2(x)\phi_2(x')\\
&=\sum_m \phi_1(x)_m\phi_1(x')_m \sum_n \phi_2(x)_n\phi_2(x')_n\\
&=\sum_{m,n} \phi_1(x)_m\phi_1(x')_m \phi_2(x)_n\phi_2(x')_n\\
&=\sum_{m,n} (\phi_1(x)_m\phi_2(x)_n)(\phi_1(x')_m\phi_2(x')_n)\\
&=(\phi_1\otimes\phi_2)^T(x)(\phi_1\otimes\phi_2)(x')\\
&=\psi^T(x)\psi(x')\quad(\psi(x)=\phi(x)\otimes\phi_2(x))
\end{aligned}
\]
Comment.
上述两个结论的第二种证明方法均基于有限维的特征映射,不清楚对于无穷维,包含可数无穷维和不可数无穷维的特征映射,应该如何定义相应的拼接操作和 Kronecker 积。
Exercise 6.8
Hint.
对于 6.19
\[k(\phi(x),\phi(x'))=\psi^T(x)\psi(x)\quad(\psi(x)=\varphi(\phi(x)))
\]
对于 6.20
\[x^T Ax' = (\sqrt{A}x)^T(\sqrt{A}x')=\psi^T(x)\psi(x)\quad(\psi(x)=\sqrt{A}x)
\]
Exercise 6.9
Hint.
与证明 6.17-6.18
类似,也存在两种证法,下面分别给出相应的有限维特征映射的构造。对于 6.21
\[\psi(x)=[\phi_1(x_a)^T,\phi_2(x_b)^T]^T
\]
对于 6.22
\[\psi(x)=\phi_1(x_a)\otimes\phi_2(x_b)
\]
Exercise 6.10
Hint.
\[\begin{aligned}
y(x)
&=\sum_n a_n k(x_n, x)\\
&=\sum_n a_n f(x_n)f(x)\\
&=(\sum_n a_n f(x_n))f(x)\\
&\propto f(x)
\end{aligned}
\]
Comment.
若能构造核 \(k(x_n,x)=f(x_n)f(x)\),假设 \(t_n=f(x_n)\neq 0\),则 \(f(x)=\frac{k(x_n,x)}{t_n}\),即可直接求出 \(f\)。从这个角度看,本题结果仅有理论价值,没有实际应用价值。
Exercise 6.12
Hint.
记 \(A=\{a_n\}^{|A|}_{n=1}\),定义映射 \(\phi:2^A\to\{0,1\}^{|A|}\),对于 \(S\subset A\),有 \(\phi(S)_n=\mathbf{1}_{[a_n\in S]}\),则对于 \(A_1,A_2\subset A,\phi^T(A_1)\phi(A_2)=|A_1\cap A_2|\),即 \(k(A_1,A_2)=|A_1\cap A_2|\) 为定义在 \(A\) 的幂集上的核函数。
Exercise 6.13
Hint.
记\(\psi:\mathbb{R}^n\to\mathbb{R},\theta\mapsto \phi\),\(h(\theta, x)=\nabla_{\theta}\ln p(x|\psi(\theta))=\frac{\partial \phi}{\partial \theta}g(\phi,x)\),则Fisher信息矩阵化为
\(G=\underset{x}{\mathbb{E}}[h(\theta, x)h(\theta, x)^T]=\frac{\partial \phi}{\partial \theta} F (\frac{\partial \phi}{\partial \theta})^T\),其逆矩阵\(G^{-1} = ((\frac{\partial \phi}{\partial \theta})^T)^{-1}F^{-1} (\frac{\partial \phi}{\partial \theta})^{-1}\),所以\(k'(x, x')=h(\theta, x)^T F^{-1} h(\theta,x)=k(x, x')\)。
Comment.
注意到\(\psi\)是可逆的可微映射,所以\(\frac{\partial \phi}{\partial \theta}\in M_{n\times n}(\mathbb{R})\)可逆。
Exercise 6.15
Hint.
\[\left|
\begin{matrix}
k(x_1,x_1) & k(x_1,x_2)\\
k(x_2,x_1) & k(x_2,x_2)
\end{matrix}
\right|
=k(x_1,x_1)k(x_2,x_2) - k(x_1,x_2)k(x_2,x_1) \geq 0.
\]
Exercise 6.16
Solution.
\(J(w)=f(\Phi w) + g(\|w\|^2_2)\),记 \(\Phi\) 的核空间为 \(\text{Ker}(\Phi)=\{w|\Phi w=0\}\),则 \(w\) 可按 \(\text{Ker}(\Phi)\) 和 \(\text{Ker}(\Phi)^{\perp}\) 正交分解,注意到 \(\text{Ker}(\Phi)^{\perp}=\left<\phi(x_1),\dots,\phi(x_n)\right>\),即核空间的正交补是行空间,记该分解为 \(w=w_1+w_2\),满足 \(w_1\perp w_2\),则
\[\begin{aligned}
J(w)
&=f(\Phi(w_1+w_2)) + g(\|w_1+w_2\|^2_2)\\
&=f(\Phi w_1) + g(\|w_1\|^2_2+\|w_2\|^2_2)\\
&\geq f(\Phi w_1) + g(\|w_1\|^2_2)
\end{aligned}
\]
Comment.
正则项 \(g\) 的放缩依赖于勾股定理,其中的二范数可替换为其他内积诱导范数,结论不变。
Exercise 6.17
Hint.
\(F[y]=\frac{1}{2}\sum^N_{n=1}\int (y(x_n + \xi) - t_n)^2 \nu(\xi)\,{\rm d}\xi\),求微分得
\[\begin{aligned}
\delta F[y;\eta]
&= \sum^N_{n=1} \int (y(x_n + \xi) - t_n)\eta(x_n + \xi) \nu(\xi)\,{\rm d}\xi\\
&= \sum^N_{n=1} \int (y(\zeta_n) - t_n) \eta(\zeta_n)\nu(\zeta_n - x_n)\,{\rm d}\zeta_n\quad(\zeta_n=x_n + \xi)\\
&= \sum^N_{n=1} \int (y(\zeta_n) - t_n) \delta(\zeta_n - x)\nu(\zeta_n - x_n)\,{\rm d}\zeta_n\quad(\eta(\zeta) = \delta(\zeta - x))\\
&= \sum^N_{n=1} (y(x) - t_n)\nu(x - x_n)\\
& = 0.
\end{aligned}
\]
解得
\[y(x) = \frac{\sum^N_{n=1} t_n \nu(x - x_n)}{\sum^N_{n=1}\nu(x - x_n)}.
\]
Comment.
被积函数\((y(x_n + \xi) - t_n)^2 \nu(\xi)\)不满足\(G(y(x), y'(x),x)\)的形式,不能直接求函数导数,需要用函数微分\(\delta F\),此外涉及变量替换以及\(\delta\)函数的应用,技巧性较强。
Exercise 6.18
Solution.
题目假设在每个分支上 \([x,t]\) 满足各向同性的零均值高斯分布,即 \(f(x-x_n,t-t_n)=\mathcal{N}([x,t]|[x_n,t_n],\sigma^2 I)=\mathcal{N}(x|x_n,\sigma^2 I)\mathcal{N}(t|t_n,\sigma^2 I)\),则 \(\int f(x-x_m,t-t_m)\,\text{d}t=\mathcal{N}(x|x_m,\sigma^2 I)\),故条件分布
\[\begin{aligned}
p(t|x)
&=\frac{\sum_{n} f(x-x_n,t-t_n)}{\sum_{m} \int f(x-x_m,t-t_m)\text{d}t}\\
&=\frac{\sum_{n} \mathcal{N}(x|x_n,\sigma^2 I)\mathcal{N}(t|t_n,\sigma^2 I)}{\sum_{m} \mathcal{N}(x|x_m,\sigma^2 I)}\\
&=\sum_{n}\frac{\mathcal{N}(x|x_n,\sigma^2 I)}{\sum_{m} \mathcal{N}(x|x_m,\sigma^2 I)}\mathcal{N}(t|t_n,\sigma^2 I)\\
&=\sum_{n} k(x,x_n)\mathcal{N}(t|t_n,\sigma^2 I)
\end{aligned}
\]
注意到 \(\sum_{n} k(x,x_n)=1\),即 \(p(t|x)\) 良定义,为混合高斯。由高斯分布的性质可知,\(\mathbb{E}[t|x]=\sum_{n} k(x,x_n)t_n\),
\[\begin{aligned}
\text{Var}[t|x]
&=\mathbb{E}[t t^T|x] - \mathbb{E}[t|x] \mathbb{E}[t|x]^T\\
&=\sum_{n} k(x,x_n)\underset{t|t_n}{\mathbb{E}}[t t^T] - \mathbb{E}[t|x] \mathbb{E}[t|x]^T\\
&=\sum_{n} k(x,x_n)(t_n t_n^T+\sigma^2 I) - \mathbb{E}[t|x] \mathbb{E}[t|x]^T\\
&=\sigma^2 I+\sum_{n} k(x,x_n)t_n t_n^T - \mathbb{E}[t|x] \mathbb{E}[t|x]^T
\end{aligned}
\]
Exercise 6.19
Hint.
\(F[y]=\frac{1}{2}\sum^N_{n=1}\int (y(x_n - \xi_n) - t_n)^2 g(\xi_n)\,{\rm d}\xi_n\),求微分得
\[\begin{aligned}
\delta F[y;\eta]
&= \sum^N_{n=1} \int (y(x_n - \xi_n) - t_n)\eta(x_n - \xi_n) g(\xi_n)\,{\rm d}\xi_n\\
&= \sum^N_{n=1} \int (y(\zeta_n) - t_n) \eta(\zeta_n)g(x_n - \zeta_n)\,{\rm d}\zeta_n\quad(\zeta_n=x_n - \xi_n)\\
&= \sum^N_{n=1} \int (y(\zeta_n) - t_n) \delta(\zeta_n - x)g(\zeta_n - x_n)\,{\rm d}\zeta_n\quad(\eta(\zeta) = \delta(\zeta - x))\\
&= \sum^N_{n=1} (y(x) - t_n)g(x_n - x)\\
& = 0.
\end{aligned}
\]
解得
\[y(x) = \frac{\sum^N_{n=1} t_n g(x_n - x)}{\sum^N_{n=1}g(x_n - x)}.
\]
Exercise 6.20
Hint.
\(\mathbf{t}_{N+1}=\left[\begin{matrix}\mathbf{t}_{N}\\t_{N+1}\end{matrix}\right]\),已知 \(\mathbf{t}_{N+1},\mathbf{t}_{N},t_{N+1}\) 的分布,求 \(t_{N+1}|\mathbf{t}_{N}\),当两者服从联合高斯分布时,我们可以使用条件高斯分布的结论。
Solution.
已知 \(p(\mathbf{t}_{N+1})=\mathcal{N}(\mathbf{t}_{N+1}|0,\mathbf{C}_{N+1}),p(\mathbf{t}_{N})=\mathcal{N}(\mathbf{t}_{N}|0,\mathbf{C}_{N})\),其中
\[\begin{aligned}
\mathbf{C}_{N+1}
=\left[
\begin{matrix}
\mathbf{C}_{N} & \mathbf{k}\\
\mathbf{k}^T & c
\end{matrix}\right].
\end{aligned}
\]
由条件高斯的结论有
\[p(t_{N+1}|\mathbf{t}_{N})=\mathcal{N}(t_{N+1}|\mathbf{k}^T\mathbf{C}_N^{-1}\mathbf{t}_{N},c-\mathbf{k}^T\mathbf{C}_N^{-1}\mathbf{k})
\]
Comment.
上述公式给出了高斯过程的预测分布,容易将其推广到预测多个样本的情形,即习题 6.22。
Exercise 6.21
Solution.
记号上,先将 6.20 中 \(\mathbf{C}_{N+1}\) 重写为
\[\begin{aligned}
\mathbf{C}_{N+1}
=\left[
\begin{matrix}
\alpha^{-1}\Phi\Phi^T+\beta^{-1}I & \alpha^{-1}\Phi\phi\\
\alpha^{-1}\phi^T\Phi^T & \alpha^{-1}\phi^T\phi+\beta^{-1}
\end{matrix}\right].
\end{aligned}
\]
则 \(t_{N+1}|\mathbf{t}_N\) 的均值为
\[\begin{aligned}
\mu&=\alpha^{-1}\phi^T\Phi^T(\alpha^{-1}\Phi\Phi^T+\beta^{-1}I)^{-1}\mathbf{t}\\
&=\alpha^{-1}\phi^T\Phi^T(\beta I-\beta\Phi(\alpha I+\beta\Phi^T\Phi)^{-1}\beta\Phi^T)\mathbf{t}\\
&=\alpha^{-1}\beta\phi^T(\Phi^T-(\alpha I+\beta\Phi^T\Phi-\alpha I)(\alpha I+\beta\Phi^T\Phi)^{-1}\Phi^T)\mathbf{t}\\
&=\beta\phi^T(\alpha I+\beta\Phi^T\Phi)^{-1}\mathbf{t},
\end{aligned}
\]
其标准差为
\[\begin{aligned}
\sigma^2
&=\alpha^{-1}\phi^T\phi+\beta^{-1}-\alpha^{-1}\phi^T\Phi^T(\alpha^{-1}\Phi\Phi^T+\beta^{-1}I)^{-1}\Phi\alpha^{-1}\phi\\
&=\beta^{-1}+\phi^T(\alpha^{-1}I-\alpha^{-1}\Phi^T(\alpha^{-1}\Phi\Phi^T+\beta^{-1}I)^{-1}\Phi\alpha^{-1})\phi\\
&=\beta^{-1}+\phi^T(\alpha I+\beta\Phi^T\Phi)^{-1}\phi,
\end{aligned}
\]
与贝叶斯线性回归的结果一致。
Comment.
在单个预测样本的条件下,高斯过程回归与贝叶斯线性回归的结果一致,但是在多个预测样本的条件下,两种一般不一致,因为高斯过程考虑样本间的关联,而线性回归假设样本独立同分布。
Exercise 6.22
Hint.
记 \(\mathbf{t}_b=\mathbf{t}_{1:N},\mathbf{t}_a=\mathbf{t}_{N+1:N+L},\mathbf{t}=\left[\begin{matrix}\mathbf{t}_a\\\mathbf{t}_b\end{matrix}\right]\),\(p(\mathbf{t})=\mathcal{N}(\mathbf{t}|0,\mathbf{C})\),其中
\[\begin{aligned}
\mathbf{C}
=\left[
\begin{matrix}
\mathbf{C}_{aa} & \mathbf{C}_{ab}\\
\mathbf{C}_{aa} & \mathbf{C}_{bb}
\end{matrix}\right].
\end{aligned}
\]
由条件高斯分布的结论,
\[p(\mathbf{t}_{a}|\mathbf{t}_{b})=\mathcal{N}(\mathbf{t}_{a}|\mathbf{C}_{ab}\mathbf{C}_{bb}^{-1}\mathbf{t}_b,\mathbf{C}_{aa}-\mathbf{C}_{ab}\mathbf{C}_{bb}^{-1}\mathbf{C}_{ba}),
\]
由此得到条件边际分布
\[\begin{aligned}
p(t_{N+l}|\mathbf{t}_{b})
&=\mathcal{N}(t_{N+l}|[\mathbf{C}_{ab}\mathbf{C}_{bb}^{-1}\mathbf{t}_b]_l,[\mathbf{C}_{aa}-\mathbf{C}_{ab}\mathbf{C}_{bb}^{-1}\mathbf{C}_{ba}]_{ll})\\
&=\mathcal{N}(t_{N+l}|\mathbf{C}_{ab}(l,\cdot)\mathbf{C}_{bb}^{-1}\mathbf{t}_b,[\mathbf{C}_{aa}]_{ll}-\mathbf{C}_{ab}(l,\cdot)\mathbf{C}_{bb}^{-1}\mathbf{C}_{ba}(\cdot,l)),1\leq l\leq N,
\end{aligned}
\]
与 6.20 结论一致。
Exercise 6.23
Hint.
记 \(\mathbf{T}_N\) 为 \(N\) 个样本的目标向量构成的矩阵,若直接将其拉直为向量,则涉及不同样本的目标向量的不同维度之间的关联,难以建模,根据答案提示,假设向量的各个维度在给定输入向量 \(x\) 的前提下条件独立。通过观察一维情形可以得出,预测分布的均值关于目标向量的每个维度是线性的,标准差与目标向量的维度无关,由此得到高维的预测分布
\[p(t_{N+1}|\mathbf{t}_{N})=\mathcal{N}(t_{N+1}|\mathbf{k}^T\mathbf{C}_N^{-1}\mathbf{T}_{N},c-\mathbf{k}^T\mathbf{C}_N^{-1}\mathbf{k}).
\]
Comment.
如果不假设 \(t_{N+1}|x_{N+1}\) 的各个维度条件独立,对应的高斯过程应该如何表述?
Exercise 6.26
Hint.
已知
\[p(a_{N+1}|\mathbf{a}_N)=\mathcal{N}(a_{N+1}|\mathbf{k}^T\mathbf{C}^{-1}_N\mathbf{a}_N,c-\mathbf{k}^T\mathbf{C}^{-1}_N\mathbf{k}),
\]
用 \(q(\mathbf{a}_N)\) 作为 \(p(\mathbf{a}_N|\mathbf{t}_N)\) 的拉普拉斯估计,满足
\[q(\mathbf{a}_N)=\mathcal{N}(\mathbf{a}_N|\mathbf{C}_N(\mathbf{t}_N-\boldsymbol\sigma_N),(\mathbf{W}_N+\mathbf{C}^{-1}_N)^{-1}),
\]
用高斯线性模型的结论有
\[p(a_{N+1}|\mathbf{t}_N)\simeq\mathcal{N}(a_{N+1}|\mu,\sigma^2),
\]
其中均值
\[\mu=\mathbf{k}^T\mathbf{C}^{-1}_N\mathbf{C}_N(\mathbf{t}_N-\boldsymbol\sigma_N)=\mathbf{k}^T(\mathbf{t}_N-\boldsymbol\sigma_N),
\]
标准差
\[\begin{aligned}
\sigma^2
&=c-\mathbf{k}^T\mathbf{C}^{-1}_N\mathbf{k}+\mathbf{k}^T\mathbf{C}^{-1}_N(\mathbf{W}_N+\mathbf{C}^{-1}_N)^{-1}\mathbf{C}^{-1}_N\mathbf{k}\\
&=c-\mathbf{k}^T\mathbf{C}^{-1}_N(I-(\mathbf{W}_N+\mathbf{C}^{-1}_N)^{-1}(\mathbf{W}_N+\mathbf{C}^{-1}_N-\mathbf{W}_N))\mathbf{k}\\
&=c-\mathbf{k}^T(\mathbf{C}_N+\mathbf{W}^{-1}_N)^{-1}\mathbf{k}\\
\end{aligned}
\]
Exercise 6.27
Solution.
由公式 4.137,
\[\begin{aligned}
\ln p(\mathbf{t}_N|\theta)
&=\ln\int p(\mathbf{t}_N|\mathbf{a}_N)p(\mathbf{a}_N|\theta)\,\text{d}\mathbf{a}_N\\
&\simeq \ln p(\mathbf{a}^*_N|\theta)+\ln p(\mathbf{t}_N|\mathbf{a}^*_N)-\frac{1}{2}\ln \left|-\frac{\partial^2 \ln p(\mathbf{a}_N|\theta)}{\partial \mathbf{a}_N^2}|_{\mathbf{a}_N=\mathbf{a}^*_N}\right|\\
&=\ln p(\mathbf{a}^*_N|\theta)+\ln p(\mathbf{t}_N|\mathbf{a}^*_N)-\frac{1}{2}\ln \left|\mathbf{W}_N+\mathbf{C}^{-1}_N\right|+\text{const}.\\
&=-\frac{1}{2}\ln |\mathbf{C}_N|-\frac{1}{2}(\mathbf{a}^*_N)^T\mathbf{C}_N^{-1}\mathbf{a}^*_N-\frac{1}{2}\ln \left|\mathbf{W}_N+\mathbf{C}^{-1}_N\right|+\text{const}.\\
&=-\frac{1}{2}(\mathbf{a}^*_N)^T\mathbf{C}_N^{-1}\mathbf{a}^*_N-\frac{1}{2}\ln \left|\mathbf{C}_N\mathbf{W}_N+I\right|+\text{const}.\\
\end{aligned}
\]
下面计算 \(\frac{\partial\ln p(\mathbf{t}_N|\theta)}{\partial \theta}\)。用矩阵的逆的导数得到,第一项的导数为
\[-\frac{1}{2}(\mathbf{a}^*_N)^T\mathbf{C}_N\mathbf{C}_N^{-1}\mathbf{C}_N\mathbf{a}^*_N.
\]
对于第二项,使用定义求导
\[\begin{aligned}
\text{d}-\frac{1}{2}\ln \left|\mathbf{C}_N\mathbf{W}_N+I\right|
&=-\frac{1}{2}\text{tr}\left\{(\mathbf{C}_N\mathbf{W}_N+I)^{-1}\,\text{d}(\mathbf{C}_N\mathbf{W}_N+I)\right\}\\
&=-\frac{1}{2}(\text{tr}\left\{(\mathbf{C}_N\mathbf{W}_N+I)^{-1}\,\mathbf{C}_N\,\text{d}\mathbf{W}_N\right\}+\text{tr}\left\{(\mathbf{C}_N\mathbf{W}_N+I)^{-1}\,\text{d}(\mathbf{C}_N)\mathbf{W}_N\right\})\\
&=-\frac{1}{2}\sum_j\left(\text{tr}\left\{(\mathbf{C}_N\mathbf{W}_N+I)^{-1}\,\mathbf{C}_N\frac{\partial \mathbf{W}_N}{\partial\theta_j}\right\}+\text{tr}\left\{(\mathbf{C}_N\mathbf{W}_N+I)^{-1}\frac{\partial \mathbf{C}_N}{\partial\theta_j}\mathbf{W}_N\right\}\right)\,\text{d}\theta_j\\
\end{aligned}
\]
注意到 \(\mathbf{W}_N=\text{diag}(\sigma(\mathbf{a}^*_N)\circ(1-\sigma(\mathbf{a}^*_N)))\)
故
\[\begin{aligned}
\frac{\partial \text{diag}(\sigma(\mathbf{a}^*_N)(1-\sigma(\mathbf{a}^*_N)))}{\partial\theta_j}
&=\text{diag}\left(\frac{\partial \sigma(\mathbf{a}^*_N)\circ(1-\sigma(\mathbf{a}^*_N))}{\partial\theta_j}\right)\\
&=\text{diag}\left(\frac{\partial \sigma(\mathbf{a}^*_N)\circ(1-\sigma(\mathbf{a}^*_N))}{\partial\theta_j^T}\right)\\
&=\text{diag}\left(\frac{\partial \sigma(\mathbf{a}^*_N)\circ(1-\sigma(\mathbf{a}^*_N))}{{\partial\mathbf{a}^*}^T_N}\frac{\partial \mathbf{a}^*_N}{\partial\theta_j^T}\right)\\
&=\text{diag}\left(\text{diag}\left(\sigma(\mathbf{a}^*_N)\circ(1-\sigma(\mathbf{a}^*_N))\circ(1-2\sigma(\mathbf{a}^*_N))\right)\frac{\partial \mathbf{a}^*_N}{\partial\theta_j^T}\right)
\end{aligned}
\]
其中
\[\begin{aligned}
\frac{\partial \mathbf{a}^*_N}{\partial\theta_j^T}
&=\frac{\partial \mathbf{C}_N}{\partial\theta_j^T}(\mathbf{t}_N-\boldsymbol{\sigma}_N)-\mathbf{C}_N\text{diag}(\sigma(\mathbf{a}^*_N)\circ(1-\sigma(\mathbf{a}^*_N)))\frac{\partial \mathbf{a}^*_N}{\partial\theta_j^T}\\
&=\frac{\partial \mathbf{C}_N}{\partial\theta_j^T}(\mathbf{t}_N-\boldsymbol{\sigma}_N)-\mathbf{C}_N\mathbf{W}_N\frac{\partial \mathbf{a}^*_N}{\partial\theta_j^T}
\end{aligned}
\]
故
\[\frac{\partial \mathbf{a}^*_N}{\partial\theta_j^T}
=(I+\mathbf{C}_N\mathbf{W}_N)^{-1}\frac{\partial \mathbf{C}_N}{\partial\theta_j^T}(\mathbf{t}_N-\boldsymbol{\sigma}_N)
\]
综合上面的结果可以得到完整的梯度,由于公式冗长,在此不做合并。由上面的计算可知,梯度计算过程中唯一引入的新的量是 \(\frac{\partial \mathbf{C}_N}{\partial\theta_j}\)。