Fork me on GitHub

PRML第五章习题答案

Chapter 5. Neural Networks

更新日志(截至20210802)
  • 20210802:添加习题 5.8,5.16,5.19-5.20,5.2,5.27,5.29,5.32,5.37-5.38 的详解
  • 20210404:添加习题 5.25 的详解
  • 20210325:首次提交,含习题简述和习题 5.17 的详解

习题简述

  • 5.1:使用 \(\sigma\)\(\text{tanh}\) 的双层感知机可以通过线性变换等价
  • 5.2:优化平方损失相当于假设输出服从各向同性的高斯分布,求极大似然解
  • 5.3:假设输出服从一般的高斯分布,优化参数和协方差矩阵,直接使用线性回归的结论即可
  • 5.4:包含类标不确定性的交叉熵损失
  • 5.5:最大化分类问题的似然相当于最小化预测分布与真实分布的交叉熵
  • 5.6:二分类交叉熵的梯度
  • 5.7:多分类交叉熵的梯度
  • 5.8:计算 \(\text{tanh}\) 的梯度
  • 5.9:类标取 \(\{-1,1\}\) 时可采用 \(\text{tanh}\)
  • 5.10:对称矩阵正定当且仅当特征值为正
  • 5.11:半正定矩阵确定的二次型的图像为椭球,半径为特征值的算术平方根
  • 5.12:稳定点(梯度为零)为极小值点当且仅当海森矩阵正定,多元微积分经典结论
  • 5.13:二阶泰勒估计的参数量
  • 5.14:用一阶泰勒展开证明有限差分估计导数的误差可以控制在平方级
  • 5.15:交换求导顺序,将求导写成前向形式
  • 5.16:多元输出的海森矩阵的外积估计
  • 5.17:外积估计的合理性,最优解处的海森矩阵等于外积估计
  • 5.18:skip-connection 的梯度
  • 5.19-5.20:分类损失下海森矩阵的外积估计
  • 5.21:海森矩阵逆的增量更新
  • 5.22-5.23:双层感知机海森矩阵的显式计算及带 skip-connection 版本
  • 5.24:对输入做线性变换可等效为对参数做线性变换
  • 5.25:二阶估计的更新动力学
  • 5.26:带切传播(tangent propagation)正则的反向传播
  • 5.27:带白噪声的输入等价于二范数正则
  • 5.28:带共享参数的反向传播
  • 5.29-5.32:以正则项进行软约束的共享参数下的梯度
  • 5.33:机械臂的旋转
  • 5.34-5.36:Mixture Density Network 的参数优化,与 5.29-5.32 类似
  • 5.37:Mixture Density Network 的条件均值和方差
  • 5.38-5.39:贝叶斯神经网络的拉普拉斯估计,参数优化
  • 5.40:多类别贝叶斯神经网络,困难在于二分类的激活函数 \(\sigma\) 可以用 probit 函数近似,积分可以得到闭式解,但是多分类的 softmax 函数暂无有效近似方式,使其积分有闭式解
  • 5.41:贝叶斯神经网络的交叉熵损失

习题详解

Exercise 5.8


Hint.
\(\text{tanh}(x)=1-2\sigma(2x),\sigma(x)'=\sigma(x)(1-\sigma(x))\),故 \(\text{tanh}'(x)=-4\sigma(2x)(1-\sigma(2x))\),又因为 \(\sigma(2x)=\frac{\text{tanh}(x)-1}{2}\),故 \(\text{tanh}'(x)=-4\frac{\text{tanh}(x)-1}{2}\frac{1-\text{tanh}(x)}{2}=1-\text{tanh}^2(x)\)


Comment.
利用 \(\sigma\) 函数的导数求


Exercise 5.16


Hint.
假设参数 \(\mathbf{w}\) 为一个向量,只需计算单个样本损失函数的海森矩阵。首先 \(\frac{\partial\|\mathbf{y}-\mathbf{t}\|^2_2}{\partial \mathbf{w}^T}=2(\mathbf{y}-\mathbf{t})^T\frac{\partial\mathbf{y}}{\partial \mathbf{w}^T}\),进一步

\[\begin{aligned} \frac{\partial^2\|\mathbf{y}-\mathbf{t}\|^2_2}{\partial \mathbf{w}^2} &=\frac{\partial}{\partial \mathbf{w}^T}\frac{\partial\|\mathbf{y}-\mathbf{t}\|^2_2}{\partial \mathbf{w}}\\ &=\frac{\partial}{\partial \mathbf{w}^T}\left\{2\frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}(\mathbf{y}-\mathbf{t})\right\}\\ &=2\left\{\frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}\frac{\partial\mathbf{y}}{\partial \mathbf{w}^T}+((\mathbf{y}-\mathbf{t})^T\otimes I)\frac{\partial}{\partial \mathbf{w}^T}\text{vec}\left(\frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}\right)\right\} \end{aligned} \]

\[\begin{aligned} \frac{\partial^2\frac{1}{2}\sum\|\mathbf{y}-\mathbf{t}\|^2_2}{\partial \mathbf{w}^2} \approx \sum\frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}\frac{\partial\mathbf{y}}{\partial \mathbf{w}^T} \end{aligned} \]


Exercise 5.17


Solution.
\(\nabla\mathcal{L}=\frac{1}{2}\underset{x,t}{\mathbb{E}}[\nabla(y-t)^2]=\underset{x,t}{\mathbb{E}}[(y-t)\nabla y]\),故

\[\begin{aligned} \nabla^2\mathcal{L} &=\underset{x,t}{\mathbb{E}}[\nabla y^T \nabla y]+\underset{x,t}{\mathbb{E}}[(y-t)\nabla^2 y]\\ &=\underset{x}{\mathbb{E}}[\nabla y^T \nabla y]+\underset{x}{\mathbb{E}}\,\underset{t|x}{\mathbb{E}}[(y-t)\nabla^2 y]\\ &=\underset{x}{\mathbb{E}}[\nabla y^T \nabla y] \end{aligned} \]


Comment.
本题的意义在于说明外积估计的合理性,即外积估计等于最优模型下的海森矩阵,但是实际优化过程中很难到达最优模型,其实用性有待检验。


Exercise 5.19


Solution.
由习题 4.13 的结论可知,\(\frac{\partial E(\mathbf{w})}{\partial \mathbf{w}}=\frac{\partial \mathbf{a}^T}{\partial \mathbf{w}}(\mathbf{y}-\mathbf{t})\),进一步有

\[\begin{aligned} \frac{\partial^2E(\mathbf{w})}{\partial \mathbf{w}^2} &=\frac{\partial}{\partial \mathbf{w}^T}\frac{\partial E(\mathbf{w})}{\partial \mathbf{w}}\\ &=\frac{\partial}{\partial \mathbf{w}^T}\left\{\frac{\partial \mathbf{a}^T}{\partial \mathbf{w}}(\mathbf{y}-\mathbf{t})\right\}\\ &=\frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}\text{diag}(\mathbf{y}\circ(1-\mathbf{y}))\frac{\partial\mathbf{y}}{\partial \mathbf{w}^T}+((\mathbf{y}-\mathbf{t})^T\otimes I)\frac{\partial}{\partial \mathbf{w}^T}\text{vec}\left(\frac{\partial\mathbf{a}^T}{\partial \mathbf{w}}\right) \end{aligned} \]

故其外积估计为

\[\begin{aligned} \frac{\partial^2E(\mathbf{w})}{\partial \mathbf{w}^2} \approx \frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}\text{diag}(\mathbf{y}\circ(1-\mathbf{y}))\frac{\partial\mathbf{y}}{\partial \mathbf{w}^T} \end{aligned} \]


Comment.


Exercise 5.20


Solution.
假设参数 \(\mathbf{w}\) 为一个向量,只需计算单个样本损失函数的海森矩阵。由习题 4.18 的结论可知,\(\frac{\partial -\ln p(\mathbf{t}|\mathbf{w})}{\partial \mathbf{w}}=\frac{\partial \mathbf{a}^T}{\partial \mathbf{w}}(\mathbf{y}-\mathbf{t})\),进一步有

\[\begin{aligned} \frac{\partial^2-\ln p(\mathbf{t}|\mathbf{w})}{\partial \mathbf{w}^2} &=\frac{\partial}{\partial \mathbf{w}^T}\frac{\partial -\ln p(\mathbf{t}|\mathbf{w})}{\partial \mathbf{w}}\\ &=\frac{\partial}{\partial \mathbf{w}^T}\left\{\frac{\partial \mathbf{a}^T}{\partial \mathbf{w}}(\mathbf{y}-\mathbf{t})\right\}\\ &=\frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}\left(\text{diag}(\mathbf{y})-\mathbf{y}\mathbf{y}^T\right)\frac{\partial\mathbf{y}}{\partial \mathbf{w}^T}+((\mathbf{y}-\mathbf{t})^T\otimes I)\frac{\partial}{\partial \mathbf{w}^T}\text{vec}\left(\frac{\partial\mathbf{a}^T}{\partial \mathbf{w}}\right) \end{aligned} \]

故其外积估计为

\[\begin{aligned} \frac{\partial^2E(\mathbf{w})}{\partial \mathbf{w}^2} \approx \sum\frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}\left(\text{diag}(\mathbf{y})-\mathbf{y}\mathbf{y}^T\right)\frac{\partial\mathbf{y}}{\partial \mathbf{w}^T} \end{aligned} \]


Exercise 5.25


Solution.
\(E=E_0+\frac{1}{2}(w-w^*)^T H(w-w^*),\nabla E=H(w-w^*)\),故

\[\begin{aligned} w^{\tau} &=w^{\tau-1}-\rho\nabla E\\ &=w^{\tau-1}-\rho H(w-w^*), \end{aligned} \]

\(H\) 的特征值分解为 \(H=P^{-1}D P\),上式两边同时左乘 \(P\),并记正交基下权重向量的表示为 \(\widetilde{w}^{\tau}=P w^{\tau},\widetilde{w}^*=P w^*\),则有

\[\widetilde{w}^{\tau}=(I-\rho D)\widetilde{w}^{\tau-1}+\rho D\widetilde{w}^*, \]

移项得

\[\begin{aligned} \widetilde{w}^{\tau}-\widetilde{w}^* &=(I-\rho D)(\widetilde{w}^{\tau-1}-\widetilde{w}^*)\\ &=(I-\rho D)^{\tau}(\widetilde{w}^{0}-\widetilde{w}^*)\\ &=-(I-\rho D)^{\tau}\widetilde{w}^*,\quad(\widetilde{w}^{0}=Pw^0=0) \end{aligned} \]

\(\widetilde{w}^{\tau}=(I-(I-\rho D)^{\tau})\widetilde{w}^*\),因为学习率 \(\rho\) 充分小,故 \(\|I-\rho D\|<1\),故 \((I-\rho D)^{\tau}\to 0\,(\tau\to\infty)\),故 \(\widetilde{w}^{\tau}\to\widetilde{w}^*\,(\tau\to\infty)\)

\(D=\text{diag}\{d_j\}\),则 \(\widetilde{w}^{\tau}_j=(1-(1-\rho d_j)^{\tau})\widetilde{w}^*_j\)

  1. \(d_j\) 充分小,则有估计 \((1-\rho d_j)^{\tau})=1+(-1)^{\tau-1}\tau\rho d_j + o(\rho d_j)\),故 \(\widetilde{w}^{\tau}_j=((-1)^{\tau-1}\tau\rho d_j + o(\rho d_j))\widetilde{w}^*_j\),当 \(d_j \ll (\tau\rho)^{-1}\),有 \(|\widetilde{w}^{\tau}_j|\ll |\widetilde{w}^*_j|\)
  2. \(\tau\) 充分大时,总有 \(d_j \gg (\tau\rho)^{-1}\),此时 \(\widetilde{w}^{\tau}_j\simeq \widetilde{w}^{*}_j\)

也就是说,随着迭代次数 \(\tau\) 的增大,\(w^{\tau}\) 非零元的个数渐近增加,即优化过程使得模型需要更多的参数去拟合数据。此时,通过控制学习率和迭代次数可以控制模型的参数量,一定程度上可以理解为“早停”有利于防止过拟合。


Comment.
本题说明,对于使用梯度下降更新的模型,早停有利于减少模型参数量,防止过拟合。


Exercise 5.27


Solution.
原损失函数为

\[E=\frac{1}{2}\underset{\mathbf{x},t}{\mathbb{E}}[(y(\mathbf{x})-t)^2] \]

引入有噪声的输入 \(\mathbf{x}:=\mathbf{s}(\mathbf{x},\xi)\) 后损失函数为

\[\widetilde{E}=\frac{1}{2}\underset{\mathbf{x},t,\xi}{\mathbb{E}}[(y(\mathbf{s}(\mathbf{x},\xi)-t)^2] \]

下面对 \(y\) 做二阶泰勒展开

\[\begin{aligned} y(\mathbf{s}(\mathbf{x},\xi)) &=y(\mathbf{x})+\left(\frac{\partial y}{\partial \xi}|_{\xi=0}\right)^T\xi+\xi^T\left(\frac{\partial^2 y}{\partial \xi^2}|_{\xi=0}\right)\xi+o(\|\xi\|^2), \end{aligned} \]

其中

\[\begin{aligned} \frac{\partial y}{\partial \xi^T}=\frac{\partial y}{\partial \mathbf{s}^T}\frac{\partial \mathbf{s}}{\partial \xi^T}, \end{aligned} \]

不对 \(\frac{\partial^2 y}{\partial \xi^2}\) 进行展开,后面会看到该项将被舍弃。
\(\mathbf{a}=\frac{\partial y}{\partial \xi}|_{\xi=0},\mathbf{A}=\frac{\partial^2 y}{\partial \xi^2}|_{\xi=0}\),则二阶泰勒展开可以进一步化简为

\[\begin{aligned} y(\mathbf{s}(\mathbf{x},\xi)) &=y(\mathbf{x})+\mathbf{a}^T\xi+\xi^T\mathbf{A}\xi+o(\|\xi\|^2), \end{aligned} \]

带噪声的损失函数可以化为

\[\begin{aligned} \widetilde{E} &=\frac{1}{2}\underset{\mathbf{x},t,\xi}{\mathbb{E}}[(y(\mathbf{x})+\mathbf{a}^T\xi+\xi^T\mathbf{A}\xi+o(\|\xi\|^2)-t)^2]\\ &=\frac{1}{2}\underset{\mathbf{x},t,\xi}{\mathbb{E}}[((y(\mathbf{x})-t)+(\mathbf{a}^T\xi+\xi^T\mathbf{A}\xi+o(\|\xi\|^2))^2]\\ &=\frac{1}{2}\underset{\mathbf{x},t}{\mathbb{E}}[(y(\mathbf{x})-t)^2]\\ &\quad+\underset{\mathbf{x},t,\xi}{\mathbb{E}}[(y(\mathbf{x})-t)(\mathbf{a}^T\xi+\xi^T\mathbf{A}\xi+o(\|\xi\|^2)]\\ &\quad+\frac{1}{2}\underset{\mathbf{x},t,\xi}{\mathbb{E}}[(\mathbf{a}^T\xi+\xi^T\mathbf{A}\xi+o(\|\xi\|^2))^2]\\ &=E+\underset{\mathbf{x},t}{\mathbb{E}}[(y(\mathbf{x})-t)\mathbf{a}^T]\mathbb{E}[\xi]+\underset{\mathbf{x},t}{\mathbb{E}}[y(\mathbf{x})-t]\mathbb{E}[\xi^T\mathbf{A}\xi]+o(\|\xi\|^2)\\ &\quad+\frac{1}{2}\underset{\mathbf{x},\xi}{\mathbb{E}}[(\mathbf{a}^T\xi)^2]+o(\|\xi\|^2)\\ &=E+\frac{1}{2}\underset{\mathbf{x},\xi}{\mathbb{E}}[\mathbf{a}^T\xi\xi^T\mathbf{a}]+o(\|\xi\|^2)\quad(\mathbb{E}[\xi]=0,y=\mathbb{E}[t|\mathbf{x}])\\ &=E+\frac{1}{2}\underset{\mathbf{x}}{\mathbb{E}}[\mathbf{a}^T\mathbb{E}[\xi\xi^T]\mathbf{a}]+o(\|\xi\|^2)\\ &=E+\frac{1}{2}\mathbb{E}[\|\mathbf{a}\|^2_2]+o(\|\xi\|^2)\quad(\mathbb{E}[\xi\xi^T]=\text{Var}[\xi]+\mathbb{E}[\xi]\mathbb{E}[\xi]^T=I)\\ \end{aligned} \]

\(\mathbf{s}(\mathbf{x},\xi)=\mathbf{x}+\xi\),有 \(\frac{\partial \mathbf{s}}{\partial \xi^T}=I\),故 \(\mathbf{a}=\frac{\partial y}{\partial \mathbf{s}}|_{\xi=0}=\frac{\partial y}{\partial \mathbf{x}}\),此时有

\[\widetilde{E}=E+\frac{1}{2}\mathbb{E}\left[\left\|\frac{\partial y}{\partial \mathbf{x}}\right\|^2_2\right]+o(\|\xi\|^2) \]

即在输入引入零均值,单位协方差的加性噪声,相当于对神经网络的梯度做了二范数正则。


Comment.

  1. 书中公式 5.135 假设 \(\xi\) 是向量,而该公式前的推导假设 \(\xi\) 是标量,因此无法直接从前面推出该结果,需要假定 \(\xi\) 为向量重新做二阶泰勒估计。
  2. 如果加性噪声各向同性,即 \(\text{Var}(\xi)=\lambda I\),则有 \(\widetilde{E}=E+\frac{\lambda}{2}\mathbb{E}\left[\left\|\frac{\partial y}{\partial \mathbf{x}}\right\|^2_2\right]+o(\|\xi\|^2)\),即标准差的大小对应正则项系数。
  3. 假设 \(y=\mathbf{w}^T\mathbf{x}\) 是线性模型,则 \(\frac{\partial y}{\partial \mathbf{x}}=\mathbf{w}\),相当于对参数做二范数正则,对应输入有噪声的线性回归。与习题 3.4 的结论对应。

Exercise 5.29


Hint.
习题 5.29-5.32 均是假设每个参数独立服从混合高斯分布的前提下,求梯度进行优化。由于单个高斯具有指数形式,所以求导后产生了系数项 \(\gamma\)。单个参数 \(w_i\) 的损失函数为

\[\begin{aligned} \widetilde{E}(w_i) &=E(w_i)+\lambda \Omega(w_i)\\ &=E(w_i)-\lambda \ln \left(\sum\pi_j \mathcal{N}(w_i|\mu_j,\sigma^2_j)\right) \end{aligned} \]

\(w_i\) 求偏导有

\[\begin{aligned} \frac{\partial \widetilde{E}(w_i)}{\partial w_i} &=\frac{\partial E(w_i)}{\partial w_i}-\lambda\sum\frac{\pi_j}{\sum\pi_k \mathcal{N}(w_i|\mu_k,\sigma^2_k)}\frac{\partial \mathcal{N}(w_i|\mu_j,\sigma^2_j)}{\partial w_i}\\ &=\frac{\partial E(w_i)}{\partial w_i}+\lambda\sum\frac{\pi_j\mathcal{N}(w_i|\mu_j,\sigma^2_j)}{\sum\pi_k \mathcal{N}(w_i|\mu_k,\sigma^2_k)}\frac{w_i-\mu_j}{\sigma_j^2}\\ &=\frac{\partial E(w_i)}{\partial w_i}+\lambda\sum\gamma_j(w_i)\frac{w_i-\mu_j}{\sigma_j^2}\quad\left(\gamma_j(w_i)=\frac{\pi_j\mathcal{N}(w_i|\mu_j,\sigma^2_j)}{\sum\pi_k \mathcal{N}(w_i|\mu_k,\sigma^2_k)}\right). \end{aligned} \]


Exercise 5.32


Hint.
本题中,先验概率 \(\pi\) 无法通过拉格朗日乘子法给出闭式解,所以对 \(\pi\) 做重参数化 \(\pi=\text{softmax}(\eta)\),用梯度下降法求解。


Solution.

\[\begin{aligned} \frac{\partial \widetilde{E}}{\partial \eta^T} &=-\sum\frac{\partial \widetilde{E}(w_i)}{\partial \pi^T}\frac{\partial \pi}{\partial \eta^T}\\ &=-\lambda\sum\left(\frac{\gamma(w_i)}{\pi}\right)^T\left(\text{diag}(\pi)-\pi\pi^T\right)\\ &=\lambda\sum(\pi-\gamma(w_i))^T \end{aligned} \]


Exercise 5.37


Hint.
分解混合密度函数,先求单个分支的方差,再按分支的概率加权,即将原期望分解为条件期望进行计算。


Solution.
条件期望为

\[\begin{aligned} \mathbb{E}\left[\mathbf{t}|\mathbf{x}\right] &=\underset{\pi}{\mathbb{E}}\underset{\mathbf{t}|\pi}{\mathbb{E}}\left[\mathbf{t}|\mathbf{x}\right]\\ &=\underset{\pi}{\mathbb{E}}\left[\mu(\mathbf{x})|\pi\right]\\ &=\sum \pi_k\mu_k(\mathbf{x}) \end{aligned} \]

条件方差为

\[\begin{aligned} \mathbb{E}\left[\|\mathbf{t}-\mathbb{E}[\mathbf{t}|\mathbf{x}]\|^2_2|\mathbf{x}\right] &=\underset{\pi}{\mathbb{E}}\underset{\mathbf{t}|\pi}{\mathbb{E}}\left[\|\mathbf{t}-\mathbb{E}[\mathbf{t}|\mathbf{x}]\|^2_2|\mathbf{x}\right]\\ &=\underset{\pi}{\mathbb{E}}\underset{\mathbf{t}|\pi}{\mathbb{E}}\left[\left\|\mathbf{t}-\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]+\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]-\mathbb{E}[\mathbf{t}|\mathbf{x}]\right\|^2_2|\mathbf{x}\right]\\ &=\underset{\pi}{\mathbb{E}}\underset{\mathbf{t}|\pi}{\mathbb{E}}\left[\left\|\mathbf{t}-\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]\right\|^2_2+\left\|\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]-\mathbb{E}[\mathbf{t}|\mathbf{x}]\right\|^2_2-2\left(\mathbf{t}-\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]\right)^T\left(\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]-\mathbb{E}[\mathbf{t}|\mathbf{x}]\right)|\mathbf{x}\right]\\ &=\underset{\pi}{\mathbb{E}}\left[\underset{\mathbf{t}|\pi}{\mathbb{E}}\left[\left\|\mathbf{t}-\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]\right\|^2_2|\mathbf{x}\right]+\left\|\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]-\mathbb{E}[\mathbf{t}|\mathbf{x}]\right\|^2_2\right]\\ &=\underset{\pi}{\mathbb{E}}\left[\sigma^2(\mathbf{x})|\pi+\left\|\mu(\mathbf{x})|\pi-\sum\pi_l\mu_l(\mathbf{x})\right\|^2_2\right]\\ &=\sum\pi_k \left(\sigma_k^2(\mathbf{x})+\left\|\mu_k(\mathbf{x})-\sum\pi_l\mu_l(\mathbf{x})\right\|^2_2 \right) \end{aligned} \]


Comment.
为计算条件方差,中间引入了辅助项 \(\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]\),技巧与方差的计算一致。


Exercise 5.38


Hint.
把神经网络 \(y(\mathbf{x},\mathbf{w})\)\(\mathbf{w}=\mathbf{w}_{\text{MAP}}\) 做一阶泰勒展开,得到线性估计,利用高斯线性模型的结论计算预测分布。


Solution.
\(y\) 做一阶展开有

\[y(\mathbf{x},\mathbf{w})\simeq y(\mathbf{x},\mathbf{w}_{\text{MAP}})+\mathbf{g}^T(\mathbf{w}-\mathbf{w}_{\text{MAP}})=\mathbf{g}^T\mathbf{w}+y(\mathbf{x},\mathbf{w}_{\text{MAP}})-\mathbf{g}^T\mathbf{w}_{\text{MAP}} \]

由此得到以下高斯线性模型近似

\[p(t|\mathbf{x},\mathbf{w},\beta)\simeq \mathcal{N}(t|\mathbf{g}^T\mathbf{w}+y(\mathbf{x},\mathbf{w}_{\text{MAP}})-\mathbf{g}^T\mathbf{w}_{\text{MAP}},\beta^{-1}) \]

注意到

\[q(\mathbf{w}|\mathcal{D})=\mathcal{N}(\mathbf{w}|\mathbf{w}_{\text{MAP}},\mathbf{A}^{-1}) \]

由高斯线性模型的结论有

\[\begin{aligned} p(t|\mathbf{x},\mathcal{D},\beta) &\simeq \mathcal{N}(t|\mathbf{g}^T\mathbf{w}_{\text{MAP}}+y(\mathbf{x},\mathbf{w}_{\text{MAP}})-\mathbf{g}^T\mathbf{w}_{\text{MAP}},\beta^{-1}+\mathbf{g}^T\mathbf{A}^{-1}\mathbf{g})\\ &= \mathcal{N}(t|y(\mathbf{x},\mathbf{w}_{\text{MAP}}),\beta^{-1}+\mathbf{g}^T\mathbf{A}^{-1}\mathbf{g})\\ \end{aligned} \]


Comment.
严谨的推导应包含高阶项,但是对应的高斯线性模型应该如何处理并不清楚,这里仅按照书中的推导,直接做近似替换。


posted @ 2021-03-25 16:55  Rotopia  阅读(517)  评论(0编辑  收藏  举报