PRML第六章习题答案

Chapter 6. Kernel Methods

更新日志（截至20210808）

20210808：添加习题 6.2，6.5-6.9，6.12，6.20-6.23，6.26-6.27 的详解
20210325：添加习题简述和习题 6.1，6.10，6.15，6.16，6.18 的详解
20210127：首次提交，含习题 6.13，6.17，6.19 的详解

习题简述

核表示
- 6.1：证明对偶问题的自变量可以表示为样本特征的线性组合，进而证明对偶的对偶是原问题
- 6.2：感知机学习规则的核表示
- 6.3：将 \(k\)-nn 算法表示成核形式，只需注意到二范数可以用内积表示，而内积对应核函数
- 6.4：含负元但特征值为正的矩阵，即矩阵元素的正负与特征值的正负并无直接关联
- 6.5-6.9：验证构造核的方式
- 6.10：证明由 \(k(x,x')=f(x)f(x')\) 的线性组合定义的函数正比于 \(f(x)\)
- 6.11：证明高斯核的特征映射为无穷维，只需将高斯核分解为若干个指数核的乘积，由指数核是无穷维即可证得结论
- 6.12：集合上的内积
- 6.13：Fisher 核与参数表示无关
- 6.14：高斯分布（固定协方差矩阵）的 Fisher 核为一个马氏距离
- 6.15：核满足柯西不等式
- 6.16：线性模型（\(w^T\phi(x)\)）的最优解可表示为训练样本特征的线性组合
核密度估计
- 6.17：样本特征带有噪声的核密度估计
- 6.18：核密度估计的条件概率密度、条件均值和条件方差
- 6.19：样本特征和标签均带有噪声的核密度估计
高斯过程回归
- 6.20：高斯过程回归新样本的条件均值和协方差，用高斯分布的条件分布即可
- 6.21：若高斯过程的核为特征映射（feature map）的诱导核，则高斯过程等同于贝叶斯线性回归。
- 6.22：高斯过程的预测分布
- 6.23：多预测变量高斯过程的预测分布
- 高斯过程分类
  - 6.25：高斯过程分类的优化
  - 6.26：高斯过程分类的后验
  - 6.27：基于拉普拉斯估计的高斯过程分类的对数似然和梯度
其他
- 6.24：半正定矩阵的和是半正定矩阵

习题详解

Exercise 6.1

Solution.
原问题

\[J(w)=\frac{1}{2}\|\Phi w - t\|^2_2 + \frac{\lambda}{2}\|w\|^2_2, \]

\(\frac{\partial J}{\partial w}=\Phi^T(\Phi w -t) + \lambda w=0\)，显然最优解 \(w^*\) 是训练样本 \(\Phi\) 的函数，其可以隐式地表示为 \(\Phi\) 的行的线性组合 \(w^*=\lambda^{-1}\Phi^T(t-\Phi w^*)\)，将系数简写为 \(a\)，即 \(w^*=\Phi^T a\)。

将 \(w^*\) 回代得到对偶问题

\[\begin{aligned} J(a) &=\frac{1}{2}\|\Phi \Phi^T a - t\|^2_2 + \frac{\lambda}{2}\|\Phi^T a\|^2_2\\ &=\frac{1}{2}\|K a - t\|^2_2 + \frac{\lambda}{2}a^T K a\quad(K=\Phi\Phi^T), \end{aligned} \]

注意到核 \(K\) 通常不是满秩的，假设样本数量 \(N\) 大于特征维度 \(M\)，则 \(\text{rank}(K)\leq N-M\)。记 \(K\) 的象空间为 \(\text{Im}(K)\)，则 \(Ka=K\text{Pr}_{\text{Im}(K)} (a)\)，即仅有 \(a\) 在 \(\text{Im}(K)\) 上的投影 \(\text{Pr}_{\text{Im}(K)} (a)\) 是有效分量。\(\forall v\in\mathbb{R}^N\)，\(Kv=\Phi(\Phi^Tv)\)，即 \(K\) 的象空间为 \(\Phi\) 的列张成的线性空间，\(Ka\) 为 \(a\) 在 \(\text{Im}(K)\) 上的投影。记 \(a=\Phi u\)，代入对偶问题得

\[\begin{aligned} J(u) &=\frac{1}{2}\|K \Phi u - t\|^2_2 + \frac{\lambda}{2}u^T\Phi^T K \Phi u\quad(K=\Phi\Phi^T),\\ &=\frac{1}{2}\|\Phi\Phi^T \Phi u - t\|^2_2 + \frac{\lambda}{2}u^T\Phi^T \Phi\Phi^T \Phi u,\\ &=\frac{1}{2}\|\Phi w - t\|^2_2 + \frac{\lambda}{2}w^Tw,\quad(w=\Phi^T\Phi u=\Phi^Ta) \end{aligned} \]

即得到了原优化问题，且保持了 \(w\) 与 \(a\) 之间的映射。

Comment.

本题的对偶非拉格朗日对偶，拉格朗日对偶在于原问题的自变量与约束乘子的互相转化，本题的对偶在于参数与训练数据的互相转化，即最优参数可以表示为训练数据的线性组合，优化线性组合的系数相当于优化参数。
用样本特征表示参数的动机在于诱导核表示。

Exercise 6.2

Hint.
感知机的学习规则为随机梯度下降，即

\[\mathbf{w}^{(\tau+1)}=\mathbf{w}^{(\tau)}+\eta\phi_n t_n,n\in\mathcal{M}, \]

其中 \(\mathcal{M}\) 表示错分类样本集。则

\[\mathbf{w}^{(\tau)}=\mathbf{w}^{(0)}+\sum \alpha^{(\tau)}_n t_n\phi_n=\mathbf{w}^{(0)}+\Phi^T(\alpha^{(\tau)}\circ \mathbf{t}) \]

若 \(\mathbf{w}^{(0)}\neq 0\)，我们总可以像线性回归一样给 \(\phi\) 增加一维吸收该常数项，使得模型可以表示为 \(\phi\) 的线性组合，故假定 \(\mathbf{w}^{(0)}= 0\)，此时有

\[\mathbf{w}^{(\tau)}=\Phi^T(\alpha^{(\tau)}\circ \mathbf{t}). \]

注意到一个样本可能会用来多次更新参数，所以 \(\alpha_n\) 的取值可能互不相同，本题旨在探讨 \(\alpha_n\) 的更新规则。

Solution.

\[\begin{aligned} y(x_m) &=\text{sign}(\phi_m^T\mathbf{w})\\ &=\text{sign}(\phi_m^T\Phi^T(\alpha\circ \mathbf{t}))\\ &=\text{sign}([\phi_m^T\phi_1,\dots,\phi^T\phi_N](\alpha\circ \mathbf{t}))\\ &=\text{sign}([k(x_m,x_1),\dots,k(x_m,x_N)](\alpha\circ \mathbf{t}))\\ \end{aligned} \]

当 \(t_m y(x_m)\leq 0\) 时，按 \(\alpha_m^{(\tau+1)}=\alpha_m^{(\tau)}+\eta\) 更新线性组合的系数。这里只需计算 \(k(x_m,x_n)\) 即可判定是否要更新，即本质上不需要知道特征 \(\phi\)，只需知道相应的核函数，这里为感知机的更新提供了另一个角度的设计空间。

Comment.

Exercise 6.5

Hint.

\[\begin{aligned} f(x)k(x,x')f(x') &=f(x)\phi^T(x)\phi(x')f(x')\\ &=\psi^T(x)\psi(x')\quad(\psi(x)=f(x)\phi(x)) \end{aligned} \]

由此证得 6.14，令 \(f(x)=\sqrt{c}\) 即可得到 6.13。

Comment.
本题的意义在于，特征映射乘以一个尺度因子之后得到一个新的特征映射，相应地也得到一个新的核函数。

Exercise 6.6

Hint.

\[q(k(x,x'))=\sum^M_{m=0}a_m (k(x,x'))^m \]

注意到多项式即幂次的线性组合，只需证明核函数的幂次为核函数，核函数的线性组合为核函数即可。前者可以更一般地表述为核函数的乘机是核函数，对应 6.18，后者对应 6.17。

对于

\[\exp(k(x,x'))=\sum^\infty_{m=0}\frac{(k(x,x'))^m}{m!} \]

一方面，上述核可以视为正系数多项式核函数的极限，亦为很函数，另一方面记 \(\phi^T_M(x)\phi_M(x')=\sum^M_{m=0}\frac{(k(x,x'))^m}{m!}\)，则 \(\exp(k(x,x'))=\underset{M\to\infty}{\lim} \phi^T_M(x)\phi_M(x')\)，若存在 \(\phi_\infty=\underset{M\to\infty}{\lim} \phi_M(x)\)，则有 \(\exp(k(x,x'))=\phi^T_\infty\phi_\infty\)，即核函数的极限对应特征映射的极限。

Exercise 6.7

6.17 可以通过两个角度来证明，一是半正定矩阵的和仍为半正定矩阵，二是对于有限维特征映射而言

\[\begin{aligned} k_1(x,x')+k_2(x,x') &=\phi^T_1(x)\phi_1(x')+\phi^T_2(x)\phi_2(x')\\ &=[\phi^T_1(x),\phi^T_2(x)][\phi^T_1(x'),\phi^T_2(x')]^T\\ &=\psi^T(x)\psi(x')\quad(\psi(x)=[\phi^T_1(x),\phi^T_2(x)]^T) \end{aligned} \]

即核函数求和相当于特征映射拼接。

6.18 也可以通过两个角度证明，一是半正定矩阵的 Hadamard 积仍为半正定矩阵，二是对于有限维特征映射而言

\[\begin{aligned} k_1(x,x')k_2(x,x') &=\phi^T_1(x)\phi_1(x')\phi^T_2(x)\phi_2(x')\\ &=\sum_m \phi_1(x)_m\phi_1(x')_m \sum_n \phi_2(x)_n\phi_2(x')_n\\ &=\sum_{m,n} \phi_1(x)_m\phi_1(x')_m \phi_2(x)_n\phi_2(x')_n\\ &=\sum_{m,n} (\phi_1(x)_m\phi_2(x)_n)(\phi_1(x')_m\phi_2(x')_n)\\ &=(\phi_1\otimes\phi_2)^T(x)(\phi_1\otimes\phi_2)(x')\\ &=\psi^T(x)\psi(x')\quad(\psi(x)=\phi(x)\otimes\phi_2(x)) \end{aligned} \]

Comment.
上述两个结论的第二种证明方法均基于有限维的特征映射，不清楚对于无穷维，包含可数无穷维和不可数无穷维的特征映射，应该如何定义相应的拼接操作和 Kronecker 积。

Exercise 6.8

Hint.
对于 6.19

\[k(\phi(x),\phi(x'))=\psi^T(x)\psi(x)\quad(\psi(x)=\varphi(\phi(x))) \]

对于 6.20

\[x^T Ax' = (\sqrt{A}x)^T(\sqrt{A}x')=\psi^T(x)\psi(x)\quad(\psi(x)=\sqrt{A}x) \]

Exercise 6.9

Hint.
与证明 6.17-6.18 类似，也存在两种证法，下面分别给出相应的有限维特征映射的构造。对于 6.21

\[\psi(x)=[\phi_1(x_a)^T,\phi_2(x_b)^T]^T \]

对于 6.22

\[\psi(x)=\phi_1(x_a)\otimes\phi_2(x_b) \]

Exercise 6.10

Hint.

\[\begin{aligned} y(x) &=\sum_n a_n k(x_n, x)\\ &=\sum_n a_n f(x_n)f(x)\\ &=(\sum_n a_n f(x_n))f(x)\\ &\propto f(x) \end{aligned} \]

Comment.
若能构造核 \(k(x_n,x)=f(x_n)f(x)\)，假设 \(t_n=f(x_n)\neq 0\)，则 \(f(x)=\frac{k(x_n,x)}{t_n}\)，即可直接求出 \(f\)。从这个角度看，本题结果仅有理论价值，没有实际应用价值。

Exercise 6.12

Hint.
记 \(A=\{a_n\}^{|A|}_{n=1}\)，定义映射 \(\phi:2^A\to\{0,1\}^{|A|}\)，对于 \(S\subset A\)，有 \(\phi(S)_n=\mathbf{1}_{[a_n\in S]}\)，则对于 \(A_1,A_2\subset A,\phi^T(A_1)\phi(A_2)=|A_1\cap A_2|\)，即 \(k(A_1,A_2)=|A_1\cap A_2|\) 为定义在 \(A\) 的幂集上的核函数。

Exercise 6.13

Hint.

记\(\psi:\mathbb{R}^n\to\mathbb{R},\theta\mapsto \phi\)，\(h(\theta, x)=\nabla_{\theta}\ln p(x|\psi(\theta))=\frac{\partial \phi}{\partial \theta}g(\phi,x)\)，则Fisher信息矩阵化为

\(G=\underset{x}{\mathbb{E}}[h(\theta, x)h(\theta, x)^T]=\frac{\partial \phi}{\partial \theta} F (\frac{\partial \phi}{\partial \theta})^T\)，其逆矩阵\(G^{-1} = ((\frac{\partial \phi}{\partial \theta})^T)^{-1}F^{-1} (\frac{\partial \phi}{\partial \theta})^{-1}\)，所以\(k'(x, x')=h(\theta, x)^T F^{-1} h(\theta,x)=k(x, x')\)。

Comment.

注意到\(\psi\)是可逆的可微映射，所以\(\frac{\partial \phi}{\partial \theta}\in M_{n\times n}(\mathbb{R})\)可逆。

Exercise 6.15

Hint.

\[\left| \begin{matrix} k(x_1,x_1) & k(x_1,x_2)\\ k(x_2,x_1) & k(x_2,x_2) \end{matrix} \right| =k(x_1,x_1)k(x_2,x_2) - k(x_1,x_2)k(x_2,x_1) \geq 0. \]

Exercise 6.16

Solution.
\(J(w)=f(\Phi w) + g(\|w\|^2_2)\)，记 \(\Phi\) 的核空间为 \(\text{Ker}(\Phi)=\{w|\Phi w=0\}\)，则 \(w\) 可按 \(\text{Ker}(\Phi)\) 和 \(\text{Ker}(\Phi)^{\perp}\) 正交分解，注意到 \(\text{Ker}(\Phi)^{\perp}=\left<\phi(x_1),\dots,\phi(x_n)\right>\)，即核空间的正交补是行空间，记该分解为 \(w=w_1+w_2\)，满足 \(w_1\perp w_2\)，则

\[\begin{aligned} J(w) &=f(\Phi(w_1+w_2)) + g(\|w_1+w_2\|^2_2)\\ &=f(\Phi w_1) + g(\|w_1\|^2_2+\|w_2\|^2_2)\\ &\geq f(\Phi w_1) + g(\|w_1\|^2_2) \end{aligned} \]

Comment.
正则项 \(g\) 的放缩依赖于勾股定理，其中的二范数可替换为其他内积诱导范数，结论不变。

Exercise 6.17

Hint.

\(F[y]=\frac{1}{2}\sum^N_{n=1}\int (y(x_n + \xi) - t_n)^2 \nu(\xi)\,{\rm d}\xi\)，求微分得

\[\begin{aligned} \delta F[y;\eta] &= \sum^N_{n=1} \int (y(x_n + \xi) - t_n)\eta(x_n + \xi) \nu(\xi)\,{\rm d}\xi\\ &= \sum^N_{n=1} \int (y(\zeta_n) - t_n) \eta(\zeta_n)\nu(\zeta_n - x_n)\,{\rm d}\zeta_n\quad(\zeta_n=x_n + \xi)\\ &= \sum^N_{n=1} \int (y(\zeta_n) - t_n) \delta(\zeta_n - x)\nu(\zeta_n - x_n)\,{\rm d}\zeta_n\quad(\eta(\zeta) = \delta(\zeta - x))\\ &= \sum^N_{n=1} (y(x) - t_n)\nu(x - x_n)\\ & = 0. \end{aligned} \]

解得

\[y(x) = \frac{\sum^N_{n=1} t_n \nu(x - x_n)}{\sum^N_{n=1}\nu(x - x_n)}. \]

Comment.

被积函数\((y(x_n + \xi) - t_n)^2 \nu(\xi)\)不满足\(G(y(x), y'(x),x)\)的形式，不能直接求函数导数，需要用函数微分\(\delta F\)，此外涉及变量替换以及\(\delta\)函数的应用，技巧性较强。

Exercise 6.18

Solution.
题目假设在每个分支上 \([x,t]\) 满足各向同性的零均值高斯分布，即 \(f(x-x_n,t-t_n)=\mathcal{N}([x,t]|[x_n,t_n],\sigma^2 I)=\mathcal{N}(x|x_n,\sigma^2 I)\mathcal{N}(t|t_n,\sigma^2 I)\)，则 \(\int f(x-x_m,t-t_m)\,\text{d}t=\mathcal{N}(x|x_m,\sigma^2 I)\)，故条件分布

\[\begin{aligned} p(t|x) &=\frac{\sum_{n} f(x-x_n,t-t_n)}{\sum_{m} \int f(x-x_m,t-t_m)\text{d}t}\\ &=\frac{\sum_{n} \mathcal{N}(x|x_n,\sigma^2 I)\mathcal{N}(t|t_n,\sigma^2 I)}{\sum_{m} \mathcal{N}(x|x_m,\sigma^2 I)}\\ &=\sum_{n}\frac{\mathcal{N}(x|x_n,\sigma^2 I)}{\sum_{m} \mathcal{N}(x|x_m,\sigma^2 I)}\mathcal{N}(t|t_n,\sigma^2 I)\\ &=\sum_{n} k(x,x_n)\mathcal{N}(t|t_n,\sigma^2 I) \end{aligned} \]

注意到 \(\sum_{n} k(x,x_n)=1\)，即 \(p(t|x)\) 良定义，为混合高斯。由高斯分布的性质可知，\(\mathbb{E}[t|x]=\sum_{n} k(x,x_n)t_n\)，

\[\begin{aligned} \text{Var}[t|x] &=\mathbb{E}[t t^T|x] - \mathbb{E}[t|x] \mathbb{E}[t|x]^T\\ &=\sum_{n} k(x,x_n)\underset{t|t_n}{\mathbb{E}}[t t^T] - \mathbb{E}[t|x] \mathbb{E}[t|x]^T\\ &=\sum_{n} k(x,x_n)(t_n t_n^T+\sigma^2 I) - \mathbb{E}[t|x] \mathbb{E}[t|x]^T\\ &=\sigma^2 I+\sum_{n} k(x,x_n)t_n t_n^T - \mathbb{E}[t|x] \mathbb{E}[t|x]^T \end{aligned} \]

Exercise 6.19

Hint.

\(F[y]=\frac{1}{2}\sum^N_{n=1}\int (y(x_n - \xi_n) - t_n)^2 g(\xi_n)\,{\rm d}\xi_n\)，求微分得

\[\begin{aligned} \delta F[y;\eta] &= \sum^N_{n=1} \int (y(x_n - \xi_n) - t_n)\eta(x_n - \xi_n) g(\xi_n)\,{\rm d}\xi_n\\ &= \sum^N_{n=1} \int (y(\zeta_n) - t_n) \eta(\zeta_n)g(x_n - \zeta_n)\,{\rm d}\zeta_n\quad(\zeta_n=x_n - \xi_n)\\ &= \sum^N_{n=1} \int (y(\zeta_n) - t_n) \delta(\zeta_n - x)g(\zeta_n - x_n)\,{\rm d}\zeta_n\quad(\eta(\zeta) = \delta(\zeta - x))\\ &= \sum^N_{n=1} (y(x) - t_n)g(x_n - x)\\ & = 0. \end{aligned} \]

解得

\[y(x) = \frac{\sum^N_{n=1} t_n g(x_n - x)}{\sum^N_{n=1}g(x_n - x)}. \]

Exercise 6.20

Hint.
\(\mathbf{t}_{N+1}=\left[\begin{matrix}\mathbf{t}_{N}\\t_{N+1}\end{matrix}\right]\)，已知 \(\mathbf{t}_{N+1},\mathbf{t}_{N},t_{N+1}\) 的分布，求 \(t_{N+1}|\mathbf{t}_{N}\)，当两者服从联合高斯分布时，我们可以使用条件高斯分布的结论。

Solution.
已知 \(p(\mathbf{t}_{N+1})=\mathcal{N}(\mathbf{t}_{N+1}|0,\mathbf{C}_{N+1}),p(\mathbf{t}_{N})=\mathcal{N}(\mathbf{t}_{N}|0,\mathbf{C}_{N})\)，其中

\[\begin{aligned} \mathbf{C}_{N+1} =\left[ \begin{matrix} \mathbf{C}_{N} & \mathbf{k}\\ \mathbf{k}^T & c \end{matrix}\right]. \end{aligned} \]

由条件高斯的结论有

\[p(t_{N+1}|\mathbf{t}_{N})=\mathcal{N}(t_{N+1}|\mathbf{k}^T\mathbf{C}_N^{-1}\mathbf{t}_{N},c-\mathbf{k}^T\mathbf{C}_N^{-1}\mathbf{k}) \]

Comment.
上述公式给出了高斯过程的预测分布，容易将其推广到预测多个样本的情形，即习题 6.22。

Exercise 6.21

Solution.
记号上，先将 6.20 中 \(\mathbf{C}_{N+1}\) 重写为

\[\begin{aligned} \mathbf{C}_{N+1} =\left[ \begin{matrix} \alpha^{-1}\Phi\Phi^T+\beta^{-1}I & \alpha^{-1}\Phi\phi\\ \alpha^{-1}\phi^T\Phi^T & \alpha^{-1}\phi^T\phi+\beta^{-1} \end{matrix}\right]. \end{aligned} \]

则 \(t_{N+1}|\mathbf{t}_N\) 的均值为

\[\begin{aligned} \mu&=\alpha^{-1}\phi^T\Phi^T(\alpha^{-1}\Phi\Phi^T+\beta^{-1}I)^{-1}\mathbf{t}\\ &=\alpha^{-1}\phi^T\Phi^T(\beta I-\beta\Phi(\alpha I+\beta\Phi^T\Phi)^{-1}\beta\Phi^T)\mathbf{t}\\ &=\alpha^{-1}\beta\phi^T(\Phi^T-(\alpha I+\beta\Phi^T\Phi-\alpha I)(\alpha I+\beta\Phi^T\Phi)^{-1}\Phi^T)\mathbf{t}\\ &=\beta\phi^T(\alpha I+\beta\Phi^T\Phi)^{-1}\mathbf{t}, \end{aligned} \]

其标准差为

\[\begin{aligned} \sigma^2 &=\alpha^{-1}\phi^T\phi+\beta^{-1}-\alpha^{-1}\phi^T\Phi^T(\alpha^{-1}\Phi\Phi^T+\beta^{-1}I)^{-1}\Phi\alpha^{-1}\phi\\ &=\beta^{-1}+\phi^T(\alpha^{-1}I-\alpha^{-1}\Phi^T(\alpha^{-1}\Phi\Phi^T+\beta^{-1}I)^{-1}\Phi\alpha^{-1})\phi\\ &=\beta^{-1}+\phi^T(\alpha I+\beta\Phi^T\Phi)^{-1}\phi, \end{aligned} \]

与贝叶斯线性回归的结果一致。

Comment.
在单个预测样本的条件下，高斯过程回归与贝叶斯线性回归的结果一致，但是在多个预测样本的条件下，两种一般不一致，因为高斯过程考虑样本间的关联，而线性回归假设样本独立同分布。

Exercise 6.22

Hint.
记 \(\mathbf{t}_b=\mathbf{t}_{1:N},\mathbf{t}_a=\mathbf{t}_{N+1:N+L},\mathbf{t}=\left[\begin{matrix}\mathbf{t}_a\\\mathbf{t}_b\end{matrix}\right]\)，\(p(\mathbf{t})=\mathcal{N}(\mathbf{t}|0,\mathbf{C})\)，其中

\[\begin{aligned} \mathbf{C} =\left[ \begin{matrix} \mathbf{C}_{aa} & \mathbf{C}_{ab}\\ \mathbf{C}_{aa} & \mathbf{C}_{bb} \end{matrix}\right]. \end{aligned} \]

由条件高斯分布的结论，

\[p(\mathbf{t}_{a}|\mathbf{t}_{b})=\mathcal{N}(\mathbf{t}_{a}|\mathbf{C}_{ab}\mathbf{C}_{bb}^{-1}\mathbf{t}_b,\mathbf{C}_{aa}-\mathbf{C}_{ab}\mathbf{C}_{bb}^{-1}\mathbf{C}_{ba}), \]

由此得到条件边际分布

\[\begin{aligned} p(t_{N+l}|\mathbf{t}_{b}) &=\mathcal{N}(t_{N+l}|[\mathbf{C}_{ab}\mathbf{C}_{bb}^{-1}\mathbf{t}_b]_l,[\mathbf{C}_{aa}-\mathbf{C}_{ab}\mathbf{C}_{bb}^{-1}\mathbf{C}_{ba}]_{ll})\\ &=\mathcal{N}(t_{N+l}|\mathbf{C}_{ab}(l,\cdot)\mathbf{C}_{bb}^{-1}\mathbf{t}_b,[\mathbf{C}_{aa}]_{ll}-\mathbf{C}_{ab}(l,\cdot)\mathbf{C}_{bb}^{-1}\mathbf{C}_{ba}(\cdot,l)),1\leq l\leq N, \end{aligned} \]

与 6.20 结论一致。

Exercise 6.23

Hint.
记 \(\mathbf{T}_N\) 为 \(N\) 个样本的目标向量构成的矩阵，若直接将其拉直为向量，则涉及不同样本的目标向量的不同维度之间的关联，难以建模，根据答案提示，假设向量的各个维度在给定输入向量 \(x\) 的前提下条件独立。通过观察一维情形可以得出，预测分布的均值关于目标向量的每个维度是线性的，标准差与目标向量的维度无关，由此得到高维的预测分布

\[p(t_{N+1}|\mathbf{t}_{N})=\mathcal{N}(t_{N+1}|\mathbf{k}^T\mathbf{C}_N^{-1}\mathbf{T}_{N},c-\mathbf{k}^T\mathbf{C}_N^{-1}\mathbf{k}). \]

Comment.
如果不假设 \(t_{N+1}|x_{N+1}\) 的各个维度条件独立，对应的高斯过程应该如何表述？

Exercise 6.26

Hint.
已知

\[p(a_{N+1}|\mathbf{a}_N)=\mathcal{N}(a_{N+1}|\mathbf{k}^T\mathbf{C}^{-1}_N\mathbf{a}_N,c-\mathbf{k}^T\mathbf{C}^{-1}_N\mathbf{k}), \]

用 \(q(\mathbf{a}_N)\) 作为 \(p(\mathbf{a}_N|\mathbf{t}_N)\) 的拉普拉斯估计，满足

\[q(\mathbf{a}_N)=\mathcal{N}(\mathbf{a}_N|\mathbf{C}_N(\mathbf{t}_N-\boldsymbol\sigma_N),(\mathbf{W}_N+\mathbf{C}^{-1}_N)^{-1}), \]

用高斯线性模型的结论有

\[p(a_{N+1}|\mathbf{t}_N)\simeq\mathcal{N}(a_{N+1}|\mu,\sigma^2), \]

其中均值

\[\mu=\mathbf{k}^T\mathbf{C}^{-1}_N\mathbf{C}_N(\mathbf{t}_N-\boldsymbol\sigma_N)=\mathbf{k}^T(\mathbf{t}_N-\boldsymbol\sigma_N), \]

标准差

\[\begin{aligned} \sigma^2 &=c-\mathbf{k}^T\mathbf{C}^{-1}_N\mathbf{k}+\mathbf{k}^T\mathbf{C}^{-1}_N(\mathbf{W}_N+\mathbf{C}^{-1}_N)^{-1}\mathbf{C}^{-1}_N\mathbf{k}\\ &=c-\mathbf{k}^T\mathbf{C}^{-1}_N(I-(\mathbf{W}_N+\mathbf{C}^{-1}_N)^{-1}(\mathbf{W}_N+\mathbf{C}^{-1}_N-\mathbf{W}_N))\mathbf{k}\\ &=c-\mathbf{k}^T(\mathbf{C}_N+\mathbf{W}^{-1}_N)^{-1}\mathbf{k}\\ \end{aligned} \]

Exercise 6.27

Solution.
由公式 4.137，

\[\begin{aligned} \ln p(\mathbf{t}_N|\theta) &=\ln\int p(\mathbf{t}_N|\mathbf{a}_N)p(\mathbf{a}_N|\theta)\,\text{d}\mathbf{a}_N\\ &\simeq \ln p(\mathbf{a}^*_N|\theta)+\ln p(\mathbf{t}_N|\mathbf{a}^*_N)-\frac{1}{2}\ln \left|-\frac{\partial^2 \ln p(\mathbf{a}_N|\theta)}{\partial \mathbf{a}_N^2}|_{\mathbf{a}_N=\mathbf{a}^*_N}\right|\\ &=\ln p(\mathbf{a}^*_N|\theta)+\ln p(\mathbf{t}_N|\mathbf{a}^*_N)-\frac{1}{2}\ln \left|\mathbf{W}_N+\mathbf{C}^{-1}_N\right|+\text{const}.\\ &=-\frac{1}{2}\ln |\mathbf{C}_N|-\frac{1}{2}(\mathbf{a}^*_N)^T\mathbf{C}_N^{-1}\mathbf{a}^*_N-\frac{1}{2}\ln \left|\mathbf{W}_N+\mathbf{C}^{-1}_N\right|+\text{const}.\\ &=-\frac{1}{2}(\mathbf{a}^*_N)^T\mathbf{C}_N^{-1}\mathbf{a}^*_N-\frac{1}{2}\ln \left|\mathbf{C}_N\mathbf{W}_N+I\right|+\text{const}.\\ \end{aligned} \]

下面计算 \(\frac{\partial\ln p(\mathbf{t}_N|\theta)}{\partial \theta}\)。用矩阵的逆的导数得到，第一项的导数为

\[-\frac{1}{2}(\mathbf{a}^*_N)^T\mathbf{C}_N\mathbf{C}_N^{-1}\mathbf{C}_N\mathbf{a}^*_N. \]

对于第二项，使用定义求导

\[\begin{aligned} \text{d}-\frac{1}{2}\ln \left|\mathbf{C}_N\mathbf{W}_N+I\right| &=-\frac{1}{2}\text{tr}\left\{(\mathbf{C}_N\mathbf{W}_N+I)^{-1}\,\text{d}(\mathbf{C}_N\mathbf{W}_N+I)\right\}\\ &=-\frac{1}{2}(\text{tr}\left\{(\mathbf{C}_N\mathbf{W}_N+I)^{-1}\,\mathbf{C}_N\,\text{d}\mathbf{W}_N\right\}+\text{tr}\left\{(\mathbf{C}_N\mathbf{W}_N+I)^{-1}\,\text{d}(\mathbf{C}_N)\mathbf{W}_N\right\})\\ &=-\frac{1}{2}\sum_j\left(\text{tr}\left\{(\mathbf{C}_N\mathbf{W}_N+I)^{-1}\,\mathbf{C}_N\frac{\partial \mathbf{W}_N}{\partial\theta_j}\right\}+\text{tr}\left\{(\mathbf{C}_N\mathbf{W}_N+I)^{-1}\frac{\partial \mathbf{C}_N}{\partial\theta_j}\mathbf{W}_N\right\}\right)\,\text{d}\theta_j\\ \end{aligned} \]

注意到 \(\mathbf{W}_N=\text{diag}(\sigma(\mathbf{a}^*_N)\circ(1-\sigma(\mathbf{a}^*_N)))\)
故

\[\begin{aligned} \frac{\partial \text{diag}(\sigma(\mathbf{a}^*_N)(1-\sigma(\mathbf{a}^*_N)))}{\partial\theta_j} &=\text{diag}\left(\frac{\partial \sigma(\mathbf{a}^*_N)\circ(1-\sigma(\mathbf{a}^*_N))}{\partial\theta_j}\right)\\ &=\text{diag}\left(\frac{\partial \sigma(\mathbf{a}^*_N)\circ(1-\sigma(\mathbf{a}^*_N))}{\partial\theta_j^T}\right)\\ &=\text{diag}\left(\frac{\partial \sigma(\mathbf{a}^*_N)\circ(1-\sigma(\mathbf{a}^*_N))}{{\partial\mathbf{a}^*}^T_N}\frac{\partial \mathbf{a}^*_N}{\partial\theta_j^T}\right)\\ &=\text{diag}\left(\text{diag}\left(\sigma(\mathbf{a}^*_N)\circ(1-\sigma(\mathbf{a}^*_N))\circ(1-2\sigma(\mathbf{a}^*_N))\right)\frac{\partial \mathbf{a}^*_N}{\partial\theta_j^T}\right) \end{aligned} \]

其中

\[\begin{aligned} \frac{\partial \mathbf{a}^*_N}{\partial\theta_j^T} &=\frac{\partial \mathbf{C}_N}{\partial\theta_j^T}(\mathbf{t}_N-\boldsymbol{\sigma}_N)-\mathbf{C}_N\text{diag}(\sigma(\mathbf{a}^*_N)\circ(1-\sigma(\mathbf{a}^*_N)))\frac{\partial \mathbf{a}^*_N}{\partial\theta_j^T}\\ &=\frac{\partial \mathbf{C}_N}{\partial\theta_j^T}(\mathbf{t}_N-\boldsymbol{\sigma}_N)-\mathbf{C}_N\mathbf{W}_N\frac{\partial \mathbf{a}^*_N}{\partial\theta_j^T} \end{aligned} \]

故

\[\frac{\partial \mathbf{a}^*_N}{\partial\theta_j^T} =(I+\mathbf{C}_N\mathbf{W}_N)^{-1}\frac{\partial \mathbf{C}_N}{\partial\theta_j^T}(\mathbf{t}_N-\boldsymbol{\sigma}_N) \]

综合上面的结果可以得到完整的梯度，由于公式冗长，在此不做合并。由上面的计算可知，梯度计算过程中唯一引入的新的量是 \(\frac{\partial \mathbf{C}_N}{\partial\theta_j}\)。

posted @ 2021-01-27 13:48 Rotopia 阅读(589) 评论(0) 编辑收藏举报

刷新页面返回顶部

Rotopia

PRML第六章习题答案

Chapter 6. Kernel Methods

习题简述

习题详解

Exercise 6.1

Exercise 6.2

Exercise 6.5

Exercise 6.6

Exercise 6.7

Exercise 6.8

Exercise 6.9

Exercise 6.10

Exercise 6.12

Exercise 6.13

Exercise 6.15

Exercise 6.16

Exercise 6.17

Exercise 6.18

Exercise 6.19

Exercise 6.20

Exercise 6.21

Exercise 6.22

Exercise 6.23

Exercise 6.26

Exercise 6.27

公告