Chapter 5. Neural Networks
更新日志(截至20210802)
- 20210802:添加习题 5.8,5.16,5.19-5.20,5.2,5.27,5.29,5.32,5.37-5.38 的详解
- 20210404:添加习题 5.25 的详解
- 20210325:首次提交,含习题简述和习题 5.17 的详解
习题简述
- 5.1:使用 \(\sigma\) 和 \(\text{tanh}\) 的双层感知机可以通过线性变换等价
- 5.2:优化平方损失相当于假设输出服从各向同性的高斯分布,求极大似然解
- 5.3:假设输出服从一般的高斯分布,优化参数和协方差矩阵,直接使用线性回归的结论即可
- 5.4:包含类标不确定性的交叉熵损失
- 5.5:最大化分类问题的似然相当于最小化预测分布与真实分布的交叉熵
- 5.6:二分类交叉熵的梯度
- 5.7:多分类交叉熵的梯度
- 5.8:计算 \(\text{tanh}\) 的梯度
- 5.9:类标取 \(\{-1,1\}\) 时可采用 \(\text{tanh}\)
- 5.10:对称矩阵正定当且仅当特征值为正
- 5.11:半正定矩阵确定的二次型的图像为椭球,半径为特征值的算术平方根
- 5.12:稳定点(梯度为零)为极小值点当且仅当海森矩阵正定,多元微积分经典结论
- 5.13:二阶泰勒估计的参数量
- 5.14:用一阶泰勒展开证明有限差分估计导数的误差可以控制在平方级
- 5.15:交换求导顺序,将求导写成前向形式
- 5.16:多元输出的海森矩阵的外积估计
- 5.17:外积估计的合理性,最优解处的海森矩阵等于外积估计
- 5.18:skip-connection 的梯度
- 5.19-5.20:分类损失下海森矩阵的外积估计
- 5.21:海森矩阵逆的增量更新
- 5.22-5.23:双层感知机海森矩阵的显式计算及带 skip-connection 版本
- 5.24:对输入做线性变换可等效为对参数做线性变换
- 5.25:二阶估计的更新动力学
- 5.26:带切传播(tangent propagation)正则的反向传播
- 5.27:带白噪声的输入等价于二范数正则
- 5.28:带共享参数的反向传播
- 5.29-5.32:以正则项进行软约束的共享参数下的梯度
- 5.33:机械臂的旋转
- 5.34-5.36:Mixture Density Network 的参数优化,与 5.29-5.32 类似
- 5.37:Mixture Density Network 的条件均值和方差
- 5.38-5.39:贝叶斯神经网络的拉普拉斯估计,参数优化
- 5.40:多类别贝叶斯神经网络,困难在于二分类的激活函数 \(\sigma\) 可以用 probit 函数近似,积分可以得到闭式解,但是多分类的 softmax 函数暂无有效近似方式,使其积分有闭式解
- 5.41:贝叶斯神经网络的交叉熵损失
习题详解
Exercise 5.8
Hint.
\(\text{tanh}(x)=1-2\sigma(2x),\sigma(x)'=\sigma(x)(1-\sigma(x))\),故 \(\text{tanh}'(x)=-4\sigma(2x)(1-\sigma(2x))\),又因为 \(\sigma(2x)=\frac{\text{tanh}(x)-1}{2}\),故 \(\text{tanh}'(x)=-4\frac{\text{tanh}(x)-1}{2}\frac{1-\text{tanh}(x)}{2}=1-\text{tanh}^2(x)\)。
Comment.
利用 \(\sigma\) 函数的导数求
Exercise 5.16
Hint.
假设参数 \(\mathbf{w}\) 为一个向量,只需计算单个样本损失函数的海森矩阵。首先 \(\frac{\partial\|\mathbf{y}-\mathbf{t}\|^2_2}{\partial \mathbf{w}^T}=2(\mathbf{y}-\mathbf{t})^T\frac{\partial\mathbf{y}}{\partial \mathbf{w}^T}\),进一步
\[\begin{aligned}
\frac{\partial^2\|\mathbf{y}-\mathbf{t}\|^2_2}{\partial \mathbf{w}^2}
&=\frac{\partial}{\partial \mathbf{w}^T}\frac{\partial\|\mathbf{y}-\mathbf{t}\|^2_2}{\partial \mathbf{w}}\\
&=\frac{\partial}{\partial \mathbf{w}^T}\left\{2\frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}(\mathbf{y}-\mathbf{t})\right\}\\
&=2\left\{\frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}\frac{\partial\mathbf{y}}{\partial \mathbf{w}^T}+((\mathbf{y}-\mathbf{t})^T\otimes I)\frac{\partial}{\partial \mathbf{w}^T}\text{vec}\left(\frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}\right)\right\}
\end{aligned}
\]
故
\[\begin{aligned}
\frac{\partial^2\frac{1}{2}\sum\|\mathbf{y}-\mathbf{t}\|^2_2}{\partial \mathbf{w}^2}
\approx \sum\frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}\frac{\partial\mathbf{y}}{\partial \mathbf{w}^T}
\end{aligned}
\]
Exercise 5.17
Solution.
\(\nabla\mathcal{L}=\frac{1}{2}\underset{x,t}{\mathbb{E}}[\nabla(y-t)^2]=\underset{x,t}{\mathbb{E}}[(y-t)\nabla y]\),故
\[\begin{aligned}
\nabla^2\mathcal{L}
&=\underset{x,t}{\mathbb{E}}[\nabla y^T \nabla y]+\underset{x,t}{\mathbb{E}}[(y-t)\nabla^2 y]\\
&=\underset{x}{\mathbb{E}}[\nabla y^T \nabla y]+\underset{x}{\mathbb{E}}\,\underset{t|x}{\mathbb{E}}[(y-t)\nabla^2 y]\\
&=\underset{x}{\mathbb{E}}[\nabla y^T \nabla y]
\end{aligned}
\]
Comment.
本题的意义在于说明外积估计的合理性,即外积估计等于最优模型下的海森矩阵,但是实际优化过程中很难到达最优模型,其实用性有待检验。
Exercise 5.19
Solution.
由习题 4.13
的结论可知,\(\frac{\partial E(\mathbf{w})}{\partial \mathbf{w}}=\frac{\partial \mathbf{a}^T}{\partial \mathbf{w}}(\mathbf{y}-\mathbf{t})\),进一步有
\[\begin{aligned}
\frac{\partial^2E(\mathbf{w})}{\partial \mathbf{w}^2}
&=\frac{\partial}{\partial \mathbf{w}^T}\frac{\partial E(\mathbf{w})}{\partial \mathbf{w}}\\
&=\frac{\partial}{\partial \mathbf{w}^T}\left\{\frac{\partial \mathbf{a}^T}{\partial \mathbf{w}}(\mathbf{y}-\mathbf{t})\right\}\\
&=\frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}\text{diag}(\mathbf{y}\circ(1-\mathbf{y}))\frac{\partial\mathbf{y}}{\partial \mathbf{w}^T}+((\mathbf{y}-\mathbf{t})^T\otimes I)\frac{\partial}{\partial \mathbf{w}^T}\text{vec}\left(\frac{\partial\mathbf{a}^T}{\partial \mathbf{w}}\right)
\end{aligned}
\]
故其外积估计为
\[\begin{aligned}
\frac{\partial^2E(\mathbf{w})}{\partial \mathbf{w}^2}
\approx \frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}\text{diag}(\mathbf{y}\circ(1-\mathbf{y}))\frac{\partial\mathbf{y}}{\partial \mathbf{w}^T}
\end{aligned}
\]
Comment.
Exercise 5.20
Solution.
假设参数 \(\mathbf{w}\) 为一个向量,只需计算单个样本损失函数的海森矩阵。由习题 4.18
的结论可知,\(\frac{\partial -\ln p(\mathbf{t}|\mathbf{w})}{\partial \mathbf{w}}=\frac{\partial \mathbf{a}^T}{\partial \mathbf{w}}(\mathbf{y}-\mathbf{t})\),进一步有
\[\begin{aligned}
\frac{\partial^2-\ln p(\mathbf{t}|\mathbf{w})}{\partial \mathbf{w}^2}
&=\frac{\partial}{\partial \mathbf{w}^T}\frac{\partial -\ln p(\mathbf{t}|\mathbf{w})}{\partial \mathbf{w}}\\
&=\frac{\partial}{\partial \mathbf{w}^T}\left\{\frac{\partial \mathbf{a}^T}{\partial \mathbf{w}}(\mathbf{y}-\mathbf{t})\right\}\\
&=\frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}\left(\text{diag}(\mathbf{y})-\mathbf{y}\mathbf{y}^T\right)\frac{\partial\mathbf{y}}{\partial \mathbf{w}^T}+((\mathbf{y}-\mathbf{t})^T\otimes I)\frac{\partial}{\partial \mathbf{w}^T}\text{vec}\left(\frac{\partial\mathbf{a}^T}{\partial \mathbf{w}}\right)
\end{aligned}
\]
故其外积估计为
\[\begin{aligned}
\frac{\partial^2E(\mathbf{w})}{\partial \mathbf{w}^2}
\approx \sum\frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}\left(\text{diag}(\mathbf{y})-\mathbf{y}\mathbf{y}^T\right)\frac{\partial\mathbf{y}}{\partial \mathbf{w}^T}
\end{aligned}
\]
Exercise 5.25
Solution.
\(E=E_0+\frac{1}{2}(w-w^*)^T H(w-w^*),\nabla E=H(w-w^*)\),故
\[\begin{aligned}
w^{\tau}
&=w^{\tau-1}-\rho\nabla E\\
&=w^{\tau-1}-\rho H(w-w^*),
\end{aligned}
\]
记 \(H\) 的特征值分解为 \(H=P^{-1}D P\),上式两边同时左乘 \(P\),并记正交基下权重向量的表示为 \(\widetilde{w}^{\tau}=P w^{\tau},\widetilde{w}^*=P w^*\),则有
\[\widetilde{w}^{\tau}=(I-\rho D)\widetilde{w}^{\tau-1}+\rho D\widetilde{w}^*,
\]
移项得
\[\begin{aligned}
\widetilde{w}^{\tau}-\widetilde{w}^*
&=(I-\rho D)(\widetilde{w}^{\tau-1}-\widetilde{w}^*)\\
&=(I-\rho D)^{\tau}(\widetilde{w}^{0}-\widetilde{w}^*)\\
&=-(I-\rho D)^{\tau}\widetilde{w}^*,\quad(\widetilde{w}^{0}=Pw^0=0)
\end{aligned}
\]
故 \(\widetilde{w}^{\tau}=(I-(I-\rho D)^{\tau})\widetilde{w}^*\),因为学习率 \(\rho\) 充分小,故 \(\|I-\rho D\|<1\),故 \((I-\rho D)^{\tau}\to 0\,(\tau\to\infty)\),故 \(\widetilde{w}^{\tau}\to\widetilde{w}^*\,(\tau\to\infty)\)。
记 \(D=\text{diag}\{d_j\}\),则 \(\widetilde{w}^{\tau}_j=(1-(1-\rho d_j)^{\tau})\widetilde{w}^*_j\)。
- 若 \(d_j\) 充分小,则有估计 \((1-\rho d_j)^{\tau})=1+(-1)^{\tau-1}\tau\rho d_j + o(\rho d_j)\),故 \(\widetilde{w}^{\tau}_j=((-1)^{\tau-1}\tau\rho d_j + o(\rho d_j))\widetilde{w}^*_j\),当 \(d_j \ll (\tau\rho)^{-1}\),有 \(|\widetilde{w}^{\tau}_j|\ll |\widetilde{w}^*_j|\)。
- 当 \(\tau\) 充分大时,总有 \(d_j \gg (\tau\rho)^{-1}\),此时 \(\widetilde{w}^{\tau}_j\simeq \widetilde{w}^{*}_j\)。
也就是说,随着迭代次数 \(\tau\) 的增大,\(w^{\tau}\) 非零元的个数渐近增加,即优化过程使得模型需要更多的参数去拟合数据。此时,通过控制学习率和迭代次数可以控制模型的参数量,一定程度上可以理解为“早停”有利于防止过拟合。
Comment.
本题说明,对于使用梯度下降更新的模型,早停有利于减少模型参数量,防止过拟合。
Exercise 5.27
Solution.
原损失函数为
\[E=\frac{1}{2}\underset{\mathbf{x},t}{\mathbb{E}}[(y(\mathbf{x})-t)^2]
\]
引入有噪声的输入 \(\mathbf{x}:=\mathbf{s}(\mathbf{x},\xi)\) 后损失函数为
\[\widetilde{E}=\frac{1}{2}\underset{\mathbf{x},t,\xi}{\mathbb{E}}[(y(\mathbf{s}(\mathbf{x},\xi)-t)^2]
\]
下面对 \(y\) 做二阶泰勒展开
\[\begin{aligned}
y(\mathbf{s}(\mathbf{x},\xi))
&=y(\mathbf{x})+\left(\frac{\partial y}{\partial \xi}|_{\xi=0}\right)^T\xi+\xi^T\left(\frac{\partial^2 y}{\partial \xi^2}|_{\xi=0}\right)\xi+o(\|\xi\|^2),
\end{aligned}
\]
其中
\[\begin{aligned}
\frac{\partial y}{\partial \xi^T}=\frac{\partial y}{\partial \mathbf{s}^T}\frac{\partial \mathbf{s}}{\partial \xi^T},
\end{aligned}
\]
不对 \(\frac{\partial^2 y}{\partial \xi^2}\) 进行展开,后面会看到该项将被舍弃。
记 \(\mathbf{a}=\frac{\partial y}{\partial \xi}|_{\xi=0},\mathbf{A}=\frac{\partial^2 y}{\partial \xi^2}|_{\xi=0}\),则二阶泰勒展开可以进一步化简为
\[\begin{aligned}
y(\mathbf{s}(\mathbf{x},\xi))
&=y(\mathbf{x})+\mathbf{a}^T\xi+\xi^T\mathbf{A}\xi+o(\|\xi\|^2),
\end{aligned}
\]
带噪声的损失函数可以化为
\[\begin{aligned}
\widetilde{E}
&=\frac{1}{2}\underset{\mathbf{x},t,\xi}{\mathbb{E}}[(y(\mathbf{x})+\mathbf{a}^T\xi+\xi^T\mathbf{A}\xi+o(\|\xi\|^2)-t)^2]\\
&=\frac{1}{2}\underset{\mathbf{x},t,\xi}{\mathbb{E}}[((y(\mathbf{x})-t)+(\mathbf{a}^T\xi+\xi^T\mathbf{A}\xi+o(\|\xi\|^2))^2]\\
&=\frac{1}{2}\underset{\mathbf{x},t}{\mathbb{E}}[(y(\mathbf{x})-t)^2]\\
&\quad+\underset{\mathbf{x},t,\xi}{\mathbb{E}}[(y(\mathbf{x})-t)(\mathbf{a}^T\xi+\xi^T\mathbf{A}\xi+o(\|\xi\|^2)]\\
&\quad+\frac{1}{2}\underset{\mathbf{x},t,\xi}{\mathbb{E}}[(\mathbf{a}^T\xi+\xi^T\mathbf{A}\xi+o(\|\xi\|^2))^2]\\
&=E+\underset{\mathbf{x},t}{\mathbb{E}}[(y(\mathbf{x})-t)\mathbf{a}^T]\mathbb{E}[\xi]+\underset{\mathbf{x},t}{\mathbb{E}}[y(\mathbf{x})-t]\mathbb{E}[\xi^T\mathbf{A}\xi]+o(\|\xi\|^2)\\
&\quad+\frac{1}{2}\underset{\mathbf{x},\xi}{\mathbb{E}}[(\mathbf{a}^T\xi)^2]+o(\|\xi\|^2)\\
&=E+\frac{1}{2}\underset{\mathbf{x},\xi}{\mathbb{E}}[\mathbf{a}^T\xi\xi^T\mathbf{a}]+o(\|\xi\|^2)\quad(\mathbb{E}[\xi]=0,y=\mathbb{E}[t|\mathbf{x}])\\
&=E+\frac{1}{2}\underset{\mathbf{x}}{\mathbb{E}}[\mathbf{a}^T\mathbb{E}[\xi\xi^T]\mathbf{a}]+o(\|\xi\|^2)\\
&=E+\frac{1}{2}\mathbb{E}[\|\mathbf{a}\|^2_2]+o(\|\xi\|^2)\quad(\mathbb{E}[\xi\xi^T]=\text{Var}[\xi]+\mathbb{E}[\xi]\mathbb{E}[\xi]^T=I)\\
\end{aligned}
\]
当 \(\mathbf{s}(\mathbf{x},\xi)=\mathbf{x}+\xi\),有 \(\frac{\partial \mathbf{s}}{\partial \xi^T}=I\),故 \(\mathbf{a}=\frac{\partial y}{\partial \mathbf{s}}|_{\xi=0}=\frac{\partial y}{\partial \mathbf{x}}\),此时有
\[\widetilde{E}=E+\frac{1}{2}\mathbb{E}\left[\left\|\frac{\partial y}{\partial \mathbf{x}}\right\|^2_2\right]+o(\|\xi\|^2)
\]
即在输入引入零均值,单位协方差的加性噪声,相当于对神经网络的梯度做了二范数正则。
Comment.
- 书中公式 5.135 假设 \(\xi\) 是向量,而该公式前的推导假设 \(\xi\) 是标量,因此无法直接从前面推出该结果,需要假定 \(\xi\) 为向量重新做二阶泰勒估计。
- 如果加性噪声各向同性,即 \(\text{Var}(\xi)=\lambda I\),则有 \(\widetilde{E}=E+\frac{\lambda}{2}\mathbb{E}\left[\left\|\frac{\partial y}{\partial \mathbf{x}}\right\|^2_2\right]+o(\|\xi\|^2)\),即标准差的大小对应正则项系数。
- 假设 \(y=\mathbf{w}^T\mathbf{x}\) 是线性模型,则 \(\frac{\partial y}{\partial \mathbf{x}}=\mathbf{w}\),相当于对参数做二范数正则,对应输入有噪声的线性回归。与习题 3.4 的结论对应。
Exercise 5.29
Hint.
习题 5.29-5.32 均是假设每个参数独立服从混合高斯分布的前提下,求梯度进行优化。由于单个高斯具有指数形式,所以求导后产生了系数项 \(\gamma\)。单个参数 \(w_i\) 的损失函数为
\[\begin{aligned}
\widetilde{E}(w_i)
&=E(w_i)+\lambda \Omega(w_i)\\
&=E(w_i)-\lambda \ln \left(\sum\pi_j \mathcal{N}(w_i|\mu_j,\sigma^2_j)\right)
\end{aligned}
\]
对 \(w_i\) 求偏导有
\[\begin{aligned}
\frac{\partial \widetilde{E}(w_i)}{\partial w_i}
&=\frac{\partial E(w_i)}{\partial w_i}-\lambda\sum\frac{\pi_j}{\sum\pi_k \mathcal{N}(w_i|\mu_k,\sigma^2_k)}\frac{\partial \mathcal{N}(w_i|\mu_j,\sigma^2_j)}{\partial w_i}\\
&=\frac{\partial E(w_i)}{\partial w_i}+\lambda\sum\frac{\pi_j\mathcal{N}(w_i|\mu_j,\sigma^2_j)}{\sum\pi_k \mathcal{N}(w_i|\mu_k,\sigma^2_k)}\frac{w_i-\mu_j}{\sigma_j^2}\\
&=\frac{\partial E(w_i)}{\partial w_i}+\lambda\sum\gamma_j(w_i)\frac{w_i-\mu_j}{\sigma_j^2}\quad\left(\gamma_j(w_i)=\frac{\pi_j\mathcal{N}(w_i|\mu_j,\sigma^2_j)}{\sum\pi_k \mathcal{N}(w_i|\mu_k,\sigma^2_k)}\right).
\end{aligned}
\]
Exercise 5.32
Hint.
本题中,先验概率 \(\pi\) 无法通过拉格朗日乘子法给出闭式解,所以对 \(\pi\) 做重参数化 \(\pi=\text{softmax}(\eta)\),用梯度下降法求解。
Solution.
\[\begin{aligned}
\frac{\partial \widetilde{E}}{\partial \eta^T}
&=-\sum\frac{\partial \widetilde{E}(w_i)}{\partial \pi^T}\frac{\partial \pi}{\partial \eta^T}\\
&=-\lambda\sum\left(\frac{\gamma(w_i)}{\pi}\right)^T\left(\text{diag}(\pi)-\pi\pi^T\right)\\
&=\lambda\sum(\pi-\gamma(w_i))^T
\end{aligned}
\]
Exercise 5.37
Hint.
分解混合密度函数,先求单个分支的方差,再按分支的概率加权,即将原期望分解为条件期望进行计算。
Solution.
条件期望为
\[\begin{aligned}
\mathbb{E}\left[\mathbf{t}|\mathbf{x}\right]
&=\underset{\pi}{\mathbb{E}}\underset{\mathbf{t}|\pi}{\mathbb{E}}\left[\mathbf{t}|\mathbf{x}\right]\\
&=\underset{\pi}{\mathbb{E}}\left[\mu(\mathbf{x})|\pi\right]\\
&=\sum \pi_k\mu_k(\mathbf{x})
\end{aligned}
\]
条件方差为
\[\begin{aligned}
\mathbb{E}\left[\|\mathbf{t}-\mathbb{E}[\mathbf{t}|\mathbf{x}]\|^2_2|\mathbf{x}\right]
&=\underset{\pi}{\mathbb{E}}\underset{\mathbf{t}|\pi}{\mathbb{E}}\left[\|\mathbf{t}-\mathbb{E}[\mathbf{t}|\mathbf{x}]\|^2_2|\mathbf{x}\right]\\
&=\underset{\pi}{\mathbb{E}}\underset{\mathbf{t}|\pi}{\mathbb{E}}\left[\left\|\mathbf{t}-\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]+\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]-\mathbb{E}[\mathbf{t}|\mathbf{x}]\right\|^2_2|\mathbf{x}\right]\\
&=\underset{\pi}{\mathbb{E}}\underset{\mathbf{t}|\pi}{\mathbb{E}}\left[\left\|\mathbf{t}-\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]\right\|^2_2+\left\|\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]-\mathbb{E}[\mathbf{t}|\mathbf{x}]\right\|^2_2-2\left(\mathbf{t}-\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]\right)^T\left(\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]-\mathbb{E}[\mathbf{t}|\mathbf{x}]\right)|\mathbf{x}\right]\\
&=\underset{\pi}{\mathbb{E}}\left[\underset{\mathbf{t}|\pi}{\mathbb{E}}\left[\left\|\mathbf{t}-\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]\right\|^2_2|\mathbf{x}\right]+\left\|\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]-\mathbb{E}[\mathbf{t}|\mathbf{x}]\right\|^2_2\right]\\
&=\underset{\pi}{\mathbb{E}}\left[\sigma^2(\mathbf{x})|\pi+\left\|\mu(\mathbf{x})|\pi-\sum\pi_l\mu_l(\mathbf{x})\right\|^2_2\right]\\
&=\sum\pi_k \left(\sigma_k^2(\mathbf{x})+\left\|\mu_k(\mathbf{x})-\sum\pi_l\mu_l(\mathbf{x})\right\|^2_2 \right)
\end{aligned}
\]
Comment.
为计算条件方差,中间引入了辅助项 \(\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]\),技巧与方差的计算一致。
Exercise 5.38
Hint.
把神经网络 \(y(\mathbf{x},\mathbf{w})\) 在 \(\mathbf{w}=\mathbf{w}_{\text{MAP}}\) 做一阶泰勒展开,得到线性估计,利用高斯线性模型的结论计算预测分布。
Solution.
对 \(y\) 做一阶展开有
\[y(\mathbf{x},\mathbf{w})\simeq y(\mathbf{x},\mathbf{w}_{\text{MAP}})+\mathbf{g}^T(\mathbf{w}-\mathbf{w}_{\text{MAP}})=\mathbf{g}^T\mathbf{w}+y(\mathbf{x},\mathbf{w}_{\text{MAP}})-\mathbf{g}^T\mathbf{w}_{\text{MAP}}
\]
由此得到以下高斯线性模型近似
\[p(t|\mathbf{x},\mathbf{w},\beta)\simeq \mathcal{N}(t|\mathbf{g}^T\mathbf{w}+y(\mathbf{x},\mathbf{w}_{\text{MAP}})-\mathbf{g}^T\mathbf{w}_{\text{MAP}},\beta^{-1})
\]
注意到
\[q(\mathbf{w}|\mathcal{D})=\mathcal{N}(\mathbf{w}|\mathbf{w}_{\text{MAP}},\mathbf{A}^{-1})
\]
由高斯线性模型的结论有
\[\begin{aligned}
p(t|\mathbf{x},\mathcal{D},\beta)
&\simeq \mathcal{N}(t|\mathbf{g}^T\mathbf{w}_{\text{MAP}}+y(\mathbf{x},\mathbf{w}_{\text{MAP}})-\mathbf{g}^T\mathbf{w}_{\text{MAP}},\beta^{-1}+\mathbf{g}^T\mathbf{A}^{-1}\mathbf{g})\\
&= \mathcal{N}(t|y(\mathbf{x},\mathbf{w}_{\text{MAP}}),\beta^{-1}+\mathbf{g}^T\mathbf{A}^{-1}\mathbf{g})\\
\end{aligned}
\]
Comment.
严谨的推导应包含高阶项,但是对应的高斯线性模型应该如何处理并不清楚,这里仅按照书中的推导,直接做近似替换。