Fork me on GitHub

PRML第六章习题答案

Chapter 6. Kernel Methods

更新日志(截至20210808)
  • 20210808:添加习题 6.2,6.5-6.9,6.12,6.20-6.23,6.26-6.27 的详解
  • 20210325:添加习题简述和习题 6.1,6.10,6.15,6.16,6.18 的详解
  • 20210127:首次提交,含习题 6.13,6.17,6.19 的详解

习题简述

  • 核表示
    • 6.1:证明对偶问题的自变量可以表示为样本特征的线性组合,进而证明对偶的对偶是原问题
    • 6.2:感知机学习规则的核表示
    • 6.3:将 \(k\)-nn 算法表示成核形式,只需注意到二范数可以用内积表示,而内积对应核函数
    • 6.4:含负元但特征值为正的矩阵,即矩阵元素的正负与特征值的正负并无直接关联
    • 6.5-6.9:验证构造核的方式
    • 6.10:证明由 \(k(x,x')=f(x)f(x')\) 的线性组合定义的函数正比于 \(f(x)\)
    • 6.11:证明高斯核的特征映射为无穷维,只需将高斯核分解为若干个指数核的乘积,由指数核是无穷维即可证得结论
    • 6.12:集合上的内积
    • 6.13:Fisher 核与参数表示无关
    • 6.14:高斯分布(固定协方差矩阵)的 Fisher 核为一个马氏距离
    • 6.15:核满足柯西不等式
    • 6.16:线性模型(\(w^T\phi(x)\))的最优解可表示为训练样本特征的线性组合
  • 核密度估计
    • 6.17:样本特征带有噪声的核密度估计
    • 6.18:核密度估计的条件概率密度、条件均值和条件方差
    • 6.19:样本特征和标签均带有噪声的核密度估计
  • 高斯过程回归
    • 6.20:高斯过程回归新样本的条件均值和协方差,用高斯分布的条件分布即可
    • 6.21:若高斯过程的核为特征映射(feature map)的诱导核,则高斯过程等同于贝叶斯线性回归。
    • 6.22:高斯过程的预测分布
    • 6.23:多预测变量高斯过程的预测分布
    • 高斯过程分类
      • 6.25:高斯过程分类的优化
      • 6.26:高斯过程分类的后验
      • 6.27:基于拉普拉斯估计的高斯过程分类的对数似然和梯度
  • 其他
    • 6.24:半正定矩阵的和是半正定矩阵

习题详解

Exercise 6.1


Solution.
原问题

\[J(w)=\frac{1}{2}\|\Phi w - t\|^2_2 + \frac{\lambda}{2}\|w\|^2_2, \]

\(\frac{\partial J}{\partial w}=\Phi^T(\Phi w -t) + \lambda w=0\),显然最优解 \(w^*\) 是训练样本 \(\Phi\) 的函数,其可以隐式地表示为 \(\Phi\) 的行的线性组合 \(w^*=\lambda^{-1}\Phi^T(t-\Phi w^*)\),将系数简写为 \(a\),即 \(w^*=\Phi^T a\)

\(w^*\) 回代得到对偶问题

\[\begin{aligned} J(a) &=\frac{1}{2}\|\Phi \Phi^T a - t\|^2_2 + \frac{\lambda}{2}\|\Phi^T a\|^2_2\\ &=\frac{1}{2}\|K a - t\|^2_2 + \frac{\lambda}{2}a^T K a\quad(K=\Phi\Phi^T), \end{aligned} \]

注意到核 \(K\) 通常不是满秩的,假设样本数量 \(N\) 大于特征维度 \(M\),则 \(\text{rank}(K)\leq N-M\)。记 \(K\) 的象空间为 \(\text{Im}(K)\),则 \(Ka=K\text{Pr}_{\text{Im}(K)} (a)\),即仅有 \(a\)\(\text{Im}(K)\) 上的投影 \(\text{Pr}_{\text{Im}(K)} (a)\) 是有效分量。\(\forall v\in\mathbb{R}^N\)\(Kv=\Phi(\Phi^Tv)\),即 \(K\) 的象空间为 \(\Phi\) 的列张成的线性空间,\(Ka\)\(a\)\(\text{Im}(K)\) 上的投影。记 \(a=\Phi u\),代入对偶问题得

\[\begin{aligned} J(u) &=\frac{1}{2}\|K \Phi u - t\|^2_2 + \frac{\lambda}{2}u^T\Phi^T K \Phi u\quad(K=\Phi\Phi^T),\\ &=\frac{1}{2}\|\Phi\Phi^T \Phi u - t\|^2_2 + \frac{\lambda}{2}u^T\Phi^T \Phi\Phi^T \Phi u,\\ &=\frac{1}{2}\|\Phi w - t\|^2_2 + \frac{\lambda}{2}w^Tw,\quad(w=\Phi^T\Phi u=\Phi^Ta) \end{aligned} \]

即得到了原优化问题,且保持了 \(w\)\(a\) 之间的映射。


Comment.

  1. 本题的对偶非拉格朗日对偶,拉格朗日对偶在于原问题的自变量与约束乘子的互相转化,本题的对偶在于参数与训练数据的互相转化,即最优参数可以表示为训练数据的线性组合,优化线性组合的系数相当于优化参数。
  2. 用样本特征表示参数的动机在于诱导核表示。

Exercise 6.2


Hint.
感知机的学习规则为随机梯度下降,即

\[\mathbf{w}^{(\tau+1)}=\mathbf{w}^{(\tau)}+\eta\phi_n t_n,n\in\mathcal{M}, \]

其中 \(\mathcal{M}\) 表示错分类样本集。则

\[\mathbf{w}^{(\tau)}=\mathbf{w}^{(0)}+\sum \alpha^{(\tau)}_n t_n\phi_n=\mathbf{w}^{(0)}+\Phi^T(\alpha^{(\tau)}\circ \mathbf{t}) \]

\(\mathbf{w}^{(0)}\neq 0\),我们总可以像线性回归一样给 \(\phi\) 增加一维吸收该常数项,使得模型可以表示为 \(\phi\) 的线性组合,故假定 \(\mathbf{w}^{(0)}= 0\),此时有

\[\mathbf{w}^{(\tau)}=\Phi^T(\alpha^{(\tau)}\circ \mathbf{t}). \]

注意到一个样本可能会用来多次更新参数,所以 \(\alpha_n\) 的取值可能互不相同,本题旨在探讨 \(\alpha_n\) 的更新规则。


Solution.

\[\begin{aligned} y(x_m) &=\text{sign}(\phi_m^T\mathbf{w})\\ &=\text{sign}(\phi_m^T\Phi^T(\alpha\circ \mathbf{t}))\\ &=\text{sign}([\phi_m^T\phi_1,\dots,\phi^T\phi_N](\alpha\circ \mathbf{t}))\\ &=\text{sign}([k(x_m,x_1),\dots,k(x_m,x_N)](\alpha\circ \mathbf{t}))\\ \end{aligned} \]

\(t_m y(x_m)\leq 0\) 时,按 \(\alpha_m^{(\tau+1)}=\alpha_m^{(\tau)}+\eta\) 更新线性组合的系数。这里只需计算 \(k(x_m,x_n)\) 即可判定是否要更新,即本质上不需要知道特征 \(\phi\),只需知道相应的核函数,这里为感知机的更新提供了另一个角度的设计空间。


Comment.


Exercise 6.5


Hint.

\[\begin{aligned} f(x)k(x,x')f(x') &=f(x)\phi^T(x)\phi(x')f(x')\\ &=\psi^T(x)\psi(x')\quad(\psi(x)=f(x)\phi(x)) \end{aligned} \]

由此证得 6.14,令 \(f(x)=\sqrt{c}\) 即可得到 6.13


Comment.
本题的意义在于,特征映射乘以一个尺度因子之后得到一个新的特征映射,相应地也得到一个新的核函数。


Exercise 6.6


Hint.

\[q(k(x,x'))=\sum^M_{m=0}a_m (k(x,x'))^m \]

注意到多项式即幂次的线性组合,只需证明核函数的幂次为核函数,核函数的线性组合为核函数即可。前者可以更一般地表述为核函数的乘机是核函数,对应 6.18,后者对应 6.17

对于

\[\exp(k(x,x'))=\sum^\infty_{m=0}\frac{(k(x,x'))^m}{m!} \]

一方面,上述核可以视为正系数多项式核函数的极限,亦为很函数,另一方面记 \(\phi^T_M(x)\phi_M(x')=\sum^M_{m=0}\frac{(k(x,x'))^m}{m!}\),则 \(\exp(k(x,x'))=\underset{M\to\infty}{\lim} \phi^T_M(x)\phi_M(x')\),若存在 \(\phi_\infty=\underset{M\to\infty}{\lim} \phi_M(x)\),则有 \(\exp(k(x,x'))=\phi^T_\infty\phi_\infty\),即核函数的极限对应特征映射的极限。


Exercise 6.7


6.17 可以通过两个角度来证明,一是半正定矩阵的和仍为半正定矩阵,二是对于有限维特征映射而言

\[\begin{aligned} k_1(x,x')+k_2(x,x') &=\phi^T_1(x)\phi_1(x')+\phi^T_2(x)\phi_2(x')\\ &=[\phi^T_1(x),\phi^T_2(x)][\phi^T_1(x'),\phi^T_2(x')]^T\\ &=\psi^T(x)\psi(x')\quad(\psi(x)=[\phi^T_1(x),\phi^T_2(x)]^T) \end{aligned} \]

即核函数求和相当于特征映射拼接。

6.18 也可以通过两个角度证明,一是半正定矩阵的 Hadamard 积仍为半正定矩阵,二是对于有限维特征映射而言

\[\begin{aligned} k_1(x,x')k_2(x,x') &=\phi^T_1(x)\phi_1(x')\phi^T_2(x)\phi_2(x')\\ &=\sum_m \phi_1(x)_m\phi_1(x')_m \sum_n \phi_2(x)_n\phi_2(x')_n\\ &=\sum_{m,n} \phi_1(x)_m\phi_1(x')_m \phi_2(x)_n\phi_2(x')_n\\ &=\sum_{m,n} (\phi_1(x)_m\phi_2(x)_n)(\phi_1(x')_m\phi_2(x')_n)\\ &=(\phi_1\otimes\phi_2)^T(x)(\phi_1\otimes\phi_2)(x')\\ &=\psi^T(x)\psi(x')\quad(\psi(x)=\phi(x)\otimes\phi_2(x)) \end{aligned} \]


Comment.
上述两个结论的第二种证明方法均基于有限维的特征映射,不清楚对于无穷维,包含可数无穷维和不可数无穷维的特征映射,应该如何定义相应的拼接操作和 Kronecker 积。


Exercise 6.8


Hint.
对于 6.19

\[k(\phi(x),\phi(x'))=\psi^T(x)\psi(x)\quad(\psi(x)=\varphi(\phi(x))) \]

对于 6.20

\[x^T Ax' = (\sqrt{A}x)^T(\sqrt{A}x')=\psi^T(x)\psi(x)\quad(\psi(x)=\sqrt{A}x) \]


Exercise 6.9


Hint.
与证明 6.17-6.18 类似,也存在两种证法,下面分别给出相应的有限维特征映射的构造。对于 6.21

\[\psi(x)=[\phi_1(x_a)^T,\phi_2(x_b)^T]^T \]

对于 6.22

\[\psi(x)=\phi_1(x_a)\otimes\phi_2(x_b) \]


Exercise 6.10


Hint.

\[\begin{aligned} y(x) &=\sum_n a_n k(x_n, x)\\ &=\sum_n a_n f(x_n)f(x)\\ &=(\sum_n a_n f(x_n))f(x)\\ &\propto f(x) \end{aligned} \]


Comment.
若能构造核 \(k(x_n,x)=f(x_n)f(x)\),假设 \(t_n=f(x_n)\neq 0\),则 \(f(x)=\frac{k(x_n,x)}{t_n}\),即可直接求出 \(f\)。从这个角度看,本题结果仅有理论价值,没有实际应用价值。


Exercise 6.12


Hint.
\(A=\{a_n\}^{|A|}_{n=1}\),定义映射 \(\phi:2^A\to\{0,1\}^{|A|}\),对于 \(S\subset A\),有 \(\phi(S)_n=\mathbf{1}_{[a_n\in S]}\),则对于 \(A_1,A_2\subset A,\phi^T(A_1)\phi(A_2)=|A_1\cap A_2|\),即 \(k(A_1,A_2)=|A_1\cap A_2|\) 为定义在 \(A\) 的幂集上的核函数。


Exercise 6.13


Hint.

\(\psi:\mathbb{R}^n\to\mathbb{R},\theta\mapsto \phi\)\(h(\theta, x)=\nabla_{\theta}\ln p(x|\psi(\theta))=\frac{\partial \phi}{\partial \theta}g(\phi,x)\),则Fisher信息矩阵化为

\(G=\underset{x}{\mathbb{E}}[h(\theta, x)h(\theta, x)^T]=\frac{\partial \phi}{\partial \theta} F (\frac{\partial \phi}{\partial \theta})^T\),其逆矩阵\(G^{-1} = ((\frac{\partial \phi}{\partial \theta})^T)^{-1}F^{-1} (\frac{\partial \phi}{\partial \theta})^{-1}\),所以\(k'(x, x')=h(\theta, x)^T F^{-1} h(\theta,x)=k(x, x')\)


Comment.

注意到\(\psi\)是可逆的可微映射,所以\(\frac{\partial \phi}{\partial \theta}\in M_{n\times n}(\mathbb{R})\)可逆。


Exercise 6.15


Hint.

\[\left| \begin{matrix} k(x_1,x_1) & k(x_1,x_2)\\ k(x_2,x_1) & k(x_2,x_2) \end{matrix} \right| =k(x_1,x_1)k(x_2,x_2) - k(x_1,x_2)k(x_2,x_1) \geq 0. \]


Exercise 6.16


Solution.
\(J(w)=f(\Phi w) + g(\|w\|^2_2)\),记 \(\Phi\) 的核空间为 \(\text{Ker}(\Phi)=\{w|\Phi w=0\}\),则 \(w\) 可按 \(\text{Ker}(\Phi)\)\(\text{Ker}(\Phi)^{\perp}\) 正交分解,注意到 \(\text{Ker}(\Phi)^{\perp}=\left<\phi(x_1),\dots,\phi(x_n)\right>\),即核空间的正交补是行空间,记该分解为 \(w=w_1+w_2\),满足 \(w_1\perp w_2\),则

\[\begin{aligned} J(w) &=f(\Phi(w_1+w_2)) + g(\|w_1+w_2\|^2_2)\\ &=f(\Phi w_1) + g(\|w_1\|^2_2+\|w_2\|^2_2)\\ &\geq f(\Phi w_1) + g(\|w_1\|^2_2) \end{aligned} \]


Comment.
正则项 \(g\) 的放缩依赖于勾股定理,其中的二范数可替换为其他内积诱导范数,结论不变。


Exercise 6.17


Hint.

\(F[y]=\frac{1}{2}\sum^N_{n=1}\int (y(x_n + \xi) - t_n)^2 \nu(\xi)\,{\rm d}\xi\),求微分得

\[\begin{aligned} \delta F[y;\eta] &= \sum^N_{n=1} \int (y(x_n + \xi) - t_n)\eta(x_n + \xi) \nu(\xi)\,{\rm d}\xi\\ &= \sum^N_{n=1} \int (y(\zeta_n) - t_n) \eta(\zeta_n)\nu(\zeta_n - x_n)\,{\rm d}\zeta_n\quad(\zeta_n=x_n + \xi)\\ &= \sum^N_{n=1} \int (y(\zeta_n) - t_n) \delta(\zeta_n - x)\nu(\zeta_n - x_n)\,{\rm d}\zeta_n\quad(\eta(\zeta) = \delta(\zeta - x))\\ &= \sum^N_{n=1} (y(x) - t_n)\nu(x - x_n)\\ & = 0. \end{aligned} \]

解得

\[y(x) = \frac{\sum^N_{n=1} t_n \nu(x - x_n)}{\sum^N_{n=1}\nu(x - x_n)}. \]


Comment.

被积函数\((y(x_n + \xi) - t_n)^2 \nu(\xi)\)不满足\(G(y(x), y'(x),x)\)的形式,不能直接求函数导数,需要用函数微分\(\delta F\),此外涉及变量替换以及\(\delta\)函数的应用,技巧性较强。


Exercise 6.18


Solution.
题目假设在每个分支上 \([x,t]\) 满足各向同性的零均值高斯分布,即 \(f(x-x_n,t-t_n)=\mathcal{N}([x,t]|[x_n,t_n],\sigma^2 I)=\mathcal{N}(x|x_n,\sigma^2 I)\mathcal{N}(t|t_n,\sigma^2 I)\),则 \(\int f(x-x_m,t-t_m)\,\text{d}t=\mathcal{N}(x|x_m,\sigma^2 I)\),故条件分布

\[\begin{aligned} p(t|x) &=\frac{\sum_{n} f(x-x_n,t-t_n)}{\sum_{m} \int f(x-x_m,t-t_m)\text{d}t}\\ &=\frac{\sum_{n} \mathcal{N}(x|x_n,\sigma^2 I)\mathcal{N}(t|t_n,\sigma^2 I)}{\sum_{m} \mathcal{N}(x|x_m,\sigma^2 I)}\\ &=\sum_{n}\frac{\mathcal{N}(x|x_n,\sigma^2 I)}{\sum_{m} \mathcal{N}(x|x_m,\sigma^2 I)}\mathcal{N}(t|t_n,\sigma^2 I)\\ &=\sum_{n} k(x,x_n)\mathcal{N}(t|t_n,\sigma^2 I) \end{aligned} \]

注意到 \(\sum_{n} k(x,x_n)=1\),即 \(p(t|x)\) 良定义,为混合高斯。由高斯分布的性质可知,\(\mathbb{E}[t|x]=\sum_{n} k(x,x_n)t_n\)

\[\begin{aligned} \text{Var}[t|x] &=\mathbb{E}[t t^T|x] - \mathbb{E}[t|x] \mathbb{E}[t|x]^T\\ &=\sum_{n} k(x,x_n)\underset{t|t_n}{\mathbb{E}}[t t^T] - \mathbb{E}[t|x] \mathbb{E}[t|x]^T\\ &=\sum_{n} k(x,x_n)(t_n t_n^T+\sigma^2 I) - \mathbb{E}[t|x] \mathbb{E}[t|x]^T\\ &=\sigma^2 I+\sum_{n} k(x,x_n)t_n t_n^T - \mathbb{E}[t|x] \mathbb{E}[t|x]^T \end{aligned} \]


Exercise 6.19


Hint.

\(F[y]=\frac{1}{2}\sum^N_{n=1}\int (y(x_n - \xi_n) - t_n)^2 g(\xi_n)\,{\rm d}\xi_n\),求微分得

\[\begin{aligned} \delta F[y;\eta] &= \sum^N_{n=1} \int (y(x_n - \xi_n) - t_n)\eta(x_n - \xi_n) g(\xi_n)\,{\rm d}\xi_n\\ &= \sum^N_{n=1} \int (y(\zeta_n) - t_n) \eta(\zeta_n)g(x_n - \zeta_n)\,{\rm d}\zeta_n\quad(\zeta_n=x_n - \xi_n)\\ &= \sum^N_{n=1} \int (y(\zeta_n) - t_n) \delta(\zeta_n - x)g(\zeta_n - x_n)\,{\rm d}\zeta_n\quad(\eta(\zeta) = \delta(\zeta - x))\\ &= \sum^N_{n=1} (y(x) - t_n)g(x_n - x)\\ & = 0. \end{aligned} \]

解得

\[y(x) = \frac{\sum^N_{n=1} t_n g(x_n - x)}{\sum^N_{n=1}g(x_n - x)}. \]

Exercise 6.20


Hint.
\(\mathbf{t}_{N+1}=\left[\begin{matrix}\mathbf{t}_{N}\\t_{N+1}\end{matrix}\right]\),已知 \(\mathbf{t}_{N+1},\mathbf{t}_{N},t_{N+1}\) 的分布,求 \(t_{N+1}|\mathbf{t}_{N}\),当两者服从联合高斯分布时,我们可以使用条件高斯分布的结论。


Solution.
已知 \(p(\mathbf{t}_{N+1})=\mathcal{N}(\mathbf{t}_{N+1}|0,\mathbf{C}_{N+1}),p(\mathbf{t}_{N})=\mathcal{N}(\mathbf{t}_{N}|0,\mathbf{C}_{N})\),其中

\[\begin{aligned} \mathbf{C}_{N+1} =\left[ \begin{matrix} \mathbf{C}_{N} & \mathbf{k}\\ \mathbf{k}^T & c \end{matrix}\right]. \end{aligned} \]

由条件高斯的结论有

\[p(t_{N+1}|\mathbf{t}_{N})=\mathcal{N}(t_{N+1}|\mathbf{k}^T\mathbf{C}_N^{-1}\mathbf{t}_{N},c-\mathbf{k}^T\mathbf{C}_N^{-1}\mathbf{k}) \]


Comment.
上述公式给出了高斯过程的预测分布,容易将其推广到预测多个样本的情形,即习题 6.22。


Exercise 6.21


Solution.
记号上,先将 6.20 中 \(\mathbf{C}_{N+1}\) 重写为

\[\begin{aligned} \mathbf{C}_{N+1} =\left[ \begin{matrix} \alpha^{-1}\Phi\Phi^T+\beta^{-1}I & \alpha^{-1}\Phi\phi\\ \alpha^{-1}\phi^T\Phi^T & \alpha^{-1}\phi^T\phi+\beta^{-1} \end{matrix}\right]. \end{aligned} \]

\(t_{N+1}|\mathbf{t}_N\) 的均值为

\[\begin{aligned} \mu&=\alpha^{-1}\phi^T\Phi^T(\alpha^{-1}\Phi\Phi^T+\beta^{-1}I)^{-1}\mathbf{t}\\ &=\alpha^{-1}\phi^T\Phi^T(\beta I-\beta\Phi(\alpha I+\beta\Phi^T\Phi)^{-1}\beta\Phi^T)\mathbf{t}\\ &=\alpha^{-1}\beta\phi^T(\Phi^T-(\alpha I+\beta\Phi^T\Phi-\alpha I)(\alpha I+\beta\Phi^T\Phi)^{-1}\Phi^T)\mathbf{t}\\ &=\beta\phi^T(\alpha I+\beta\Phi^T\Phi)^{-1}\mathbf{t}, \end{aligned} \]

其标准差为

\[\begin{aligned} \sigma^2 &=\alpha^{-1}\phi^T\phi+\beta^{-1}-\alpha^{-1}\phi^T\Phi^T(\alpha^{-1}\Phi\Phi^T+\beta^{-1}I)^{-1}\Phi\alpha^{-1}\phi\\ &=\beta^{-1}+\phi^T(\alpha^{-1}I-\alpha^{-1}\Phi^T(\alpha^{-1}\Phi\Phi^T+\beta^{-1}I)^{-1}\Phi\alpha^{-1})\phi\\ &=\beta^{-1}+\phi^T(\alpha I+\beta\Phi^T\Phi)^{-1}\phi, \end{aligned} \]

与贝叶斯线性回归的结果一致。


Comment.
在单个预测样本的条件下,高斯过程回归与贝叶斯线性回归的结果一致,但是在多个预测样本的条件下,两种一般不一致,因为高斯过程考虑样本间的关联,而线性回归假设样本独立同分布。


Exercise 6.22


Hint.
\(\mathbf{t}_b=\mathbf{t}_{1:N},\mathbf{t}_a=\mathbf{t}_{N+1:N+L},\mathbf{t}=\left[\begin{matrix}\mathbf{t}_a\\\mathbf{t}_b\end{matrix}\right]\)\(p(\mathbf{t})=\mathcal{N}(\mathbf{t}|0,\mathbf{C})\),其中

\[\begin{aligned} \mathbf{C} =\left[ \begin{matrix} \mathbf{C}_{aa} & \mathbf{C}_{ab}\\ \mathbf{C}_{aa} & \mathbf{C}_{bb} \end{matrix}\right]. \end{aligned} \]

由条件高斯分布的结论,

\[p(\mathbf{t}_{a}|\mathbf{t}_{b})=\mathcal{N}(\mathbf{t}_{a}|\mathbf{C}_{ab}\mathbf{C}_{bb}^{-1}\mathbf{t}_b,\mathbf{C}_{aa}-\mathbf{C}_{ab}\mathbf{C}_{bb}^{-1}\mathbf{C}_{ba}), \]

由此得到条件边际分布

\[\begin{aligned} p(t_{N+l}|\mathbf{t}_{b}) &=\mathcal{N}(t_{N+l}|[\mathbf{C}_{ab}\mathbf{C}_{bb}^{-1}\mathbf{t}_b]_l,[\mathbf{C}_{aa}-\mathbf{C}_{ab}\mathbf{C}_{bb}^{-1}\mathbf{C}_{ba}]_{ll})\\ &=\mathcal{N}(t_{N+l}|\mathbf{C}_{ab}(l,\cdot)\mathbf{C}_{bb}^{-1}\mathbf{t}_b,[\mathbf{C}_{aa}]_{ll}-\mathbf{C}_{ab}(l,\cdot)\mathbf{C}_{bb}^{-1}\mathbf{C}_{ba}(\cdot,l)),1\leq l\leq N, \end{aligned} \]

与 6.20 结论一致。


Exercise 6.23


Hint.
\(\mathbf{T}_N\)\(N\) 个样本的目标向量构成的矩阵,若直接将其拉直为向量,则涉及不同样本的目标向量的不同维度之间的关联,难以建模,根据答案提示,假设向量的各个维度在给定输入向量 \(x\) 的前提下条件独立。通过观察一维情形可以得出,预测分布的均值关于目标向量的每个维度是线性的,标准差与目标向量的维度无关,由此得到高维的预测分布

\[p(t_{N+1}|\mathbf{t}_{N})=\mathcal{N}(t_{N+1}|\mathbf{k}^T\mathbf{C}_N^{-1}\mathbf{T}_{N},c-\mathbf{k}^T\mathbf{C}_N^{-1}\mathbf{k}). \]


Comment.
如果不假设 \(t_{N+1}|x_{N+1}\) 的各个维度条件独立,对应的高斯过程应该如何表述?


Exercise 6.26


Hint.
已知

\[p(a_{N+1}|\mathbf{a}_N)=\mathcal{N}(a_{N+1}|\mathbf{k}^T\mathbf{C}^{-1}_N\mathbf{a}_N,c-\mathbf{k}^T\mathbf{C}^{-1}_N\mathbf{k}), \]

\(q(\mathbf{a}_N)\) 作为 \(p(\mathbf{a}_N|\mathbf{t}_N)\) 的拉普拉斯估计,满足

\[q(\mathbf{a}_N)=\mathcal{N}(\mathbf{a}_N|\mathbf{C}_N(\mathbf{t}_N-\boldsymbol\sigma_N),(\mathbf{W}_N+\mathbf{C}^{-1}_N)^{-1}), \]

用高斯线性模型的结论有

\[p(a_{N+1}|\mathbf{t}_N)\simeq\mathcal{N}(a_{N+1}|\mu,\sigma^2), \]

其中均值

\[\mu=\mathbf{k}^T\mathbf{C}^{-1}_N\mathbf{C}_N(\mathbf{t}_N-\boldsymbol\sigma_N)=\mathbf{k}^T(\mathbf{t}_N-\boldsymbol\sigma_N), \]

标准差

\[\begin{aligned} \sigma^2 &=c-\mathbf{k}^T\mathbf{C}^{-1}_N\mathbf{k}+\mathbf{k}^T\mathbf{C}^{-1}_N(\mathbf{W}_N+\mathbf{C}^{-1}_N)^{-1}\mathbf{C}^{-1}_N\mathbf{k}\\ &=c-\mathbf{k}^T\mathbf{C}^{-1}_N(I-(\mathbf{W}_N+\mathbf{C}^{-1}_N)^{-1}(\mathbf{W}_N+\mathbf{C}^{-1}_N-\mathbf{W}_N))\mathbf{k}\\ &=c-\mathbf{k}^T(\mathbf{C}_N+\mathbf{W}^{-1}_N)^{-1}\mathbf{k}\\ \end{aligned} \]


Exercise 6.27


Solution.
由公式 4.137,

\[\begin{aligned} \ln p(\mathbf{t}_N|\theta) &=\ln\int p(\mathbf{t}_N|\mathbf{a}_N)p(\mathbf{a}_N|\theta)\,\text{d}\mathbf{a}_N\\ &\simeq \ln p(\mathbf{a}^*_N|\theta)+\ln p(\mathbf{t}_N|\mathbf{a}^*_N)-\frac{1}{2}\ln \left|-\frac{\partial^2 \ln p(\mathbf{a}_N|\theta)}{\partial \mathbf{a}_N^2}|_{\mathbf{a}_N=\mathbf{a}^*_N}\right|\\ &=\ln p(\mathbf{a}^*_N|\theta)+\ln p(\mathbf{t}_N|\mathbf{a}^*_N)-\frac{1}{2}\ln \left|\mathbf{W}_N+\mathbf{C}^{-1}_N\right|+\text{const}.\\ &=-\frac{1}{2}\ln |\mathbf{C}_N|-\frac{1}{2}(\mathbf{a}^*_N)^T\mathbf{C}_N^{-1}\mathbf{a}^*_N-\frac{1}{2}\ln \left|\mathbf{W}_N+\mathbf{C}^{-1}_N\right|+\text{const}.\\ &=-\frac{1}{2}(\mathbf{a}^*_N)^T\mathbf{C}_N^{-1}\mathbf{a}^*_N-\frac{1}{2}\ln \left|\mathbf{C}_N\mathbf{W}_N+I\right|+\text{const}.\\ \end{aligned} \]

下面计算 \(\frac{\partial\ln p(\mathbf{t}_N|\theta)}{\partial \theta}\)。用矩阵的逆的导数得到,第一项的导数为

\[-\frac{1}{2}(\mathbf{a}^*_N)^T\mathbf{C}_N\mathbf{C}_N^{-1}\mathbf{C}_N\mathbf{a}^*_N. \]

对于第二项,使用定义求导

\[\begin{aligned} \text{d}-\frac{1}{2}\ln \left|\mathbf{C}_N\mathbf{W}_N+I\right| &=-\frac{1}{2}\text{tr}\left\{(\mathbf{C}_N\mathbf{W}_N+I)^{-1}\,\text{d}(\mathbf{C}_N\mathbf{W}_N+I)\right\}\\ &=-\frac{1}{2}(\text{tr}\left\{(\mathbf{C}_N\mathbf{W}_N+I)^{-1}\,\mathbf{C}_N\,\text{d}\mathbf{W}_N\right\}+\text{tr}\left\{(\mathbf{C}_N\mathbf{W}_N+I)^{-1}\,\text{d}(\mathbf{C}_N)\mathbf{W}_N\right\})\\ &=-\frac{1}{2}\sum_j\left(\text{tr}\left\{(\mathbf{C}_N\mathbf{W}_N+I)^{-1}\,\mathbf{C}_N\frac{\partial \mathbf{W}_N}{\partial\theta_j}\right\}+\text{tr}\left\{(\mathbf{C}_N\mathbf{W}_N+I)^{-1}\frac{\partial \mathbf{C}_N}{\partial\theta_j}\mathbf{W}_N\right\}\right)\,\text{d}\theta_j\\ \end{aligned} \]

注意到 \(\mathbf{W}_N=\text{diag}(\sigma(\mathbf{a}^*_N)\circ(1-\sigma(\mathbf{a}^*_N)))\)

\[\begin{aligned} \frac{\partial \text{diag}(\sigma(\mathbf{a}^*_N)(1-\sigma(\mathbf{a}^*_N)))}{\partial\theta_j} &=\text{diag}\left(\frac{\partial \sigma(\mathbf{a}^*_N)\circ(1-\sigma(\mathbf{a}^*_N))}{\partial\theta_j}\right)\\ &=\text{diag}\left(\frac{\partial \sigma(\mathbf{a}^*_N)\circ(1-\sigma(\mathbf{a}^*_N))}{\partial\theta_j^T}\right)\\ &=\text{diag}\left(\frac{\partial \sigma(\mathbf{a}^*_N)\circ(1-\sigma(\mathbf{a}^*_N))}{{\partial\mathbf{a}^*}^T_N}\frac{\partial \mathbf{a}^*_N}{\partial\theta_j^T}\right)\\ &=\text{diag}\left(\text{diag}\left(\sigma(\mathbf{a}^*_N)\circ(1-\sigma(\mathbf{a}^*_N))\circ(1-2\sigma(\mathbf{a}^*_N))\right)\frac{\partial \mathbf{a}^*_N}{\partial\theta_j^T}\right) \end{aligned} \]

其中

\[\begin{aligned} \frac{\partial \mathbf{a}^*_N}{\partial\theta_j^T} &=\frac{\partial \mathbf{C}_N}{\partial\theta_j^T}(\mathbf{t}_N-\boldsymbol{\sigma}_N)-\mathbf{C}_N\text{diag}(\sigma(\mathbf{a}^*_N)\circ(1-\sigma(\mathbf{a}^*_N)))\frac{\partial \mathbf{a}^*_N}{\partial\theta_j^T}\\ &=\frac{\partial \mathbf{C}_N}{\partial\theta_j^T}(\mathbf{t}_N-\boldsymbol{\sigma}_N)-\mathbf{C}_N\mathbf{W}_N\frac{\partial \mathbf{a}^*_N}{\partial\theta_j^T} \end{aligned} \]

\[\frac{\partial \mathbf{a}^*_N}{\partial\theta_j^T} =(I+\mathbf{C}_N\mathbf{W}_N)^{-1}\frac{\partial \mathbf{C}_N}{\partial\theta_j^T}(\mathbf{t}_N-\boldsymbol{\sigma}_N) \]

综合上面的结果可以得到完整的梯度,由于公式冗长,在此不做合并。由上面的计算可知,梯度计算过程中唯一引入的新的量是 \(\frac{\partial \mathbf{C}_N}{\partial\theta_j}\)


posted @ 2021-01-27 13:48  Rotopia  阅读(562)  评论(0编辑  收藏  举报