PRML第四章习题答案

Chapter 4. Linear Models for Classification

更新日志（截至20210725）

20210725：添加习题 4.11，4.13-4.14，4.17-4.19，4.21-4.26 的详解
20210717：添加习题 4.4-4.6，4.9-4.10 的详解
20210314：首次提交，含习题简述及习题 4.2 的详解

习题简述

最小二乘
- 4.1：线性可分等价于不同类别数据点的凸包不交，凸优化经典结论
- 4.2：分类问题的最小二乘解与真实标签落在同一超平面
- 4.3：4.2 的结论的推广，分类问题的最小二乘解与真实标签落在同一组超平面的交
线性判别法
- 4.4：线性判别法的解正比于类别中心的差
- 4.5：Fisher 准则表示为类内方差与类间方差的比值，两者均可表示为参数的二次型，直接验证
- 4.6：Fisher 判别法与最小二乘法的联系
似然比法则
- 4.8：假设两类别样本服从相同协方差不同均值的高斯分布，推导样本点类别的后验，直接验证
- 4.9：多类别分布的类别先验的极大似然估计等于频率，为 4.10 做铺垫
- 4.10：假设不同类别样本服从相同协方差不同均值的高斯分布，计算每个类别均值的极大似然估计和协方差矩阵的极大似然估计
- 4.11：朴素贝叶斯
逻辑回归
- 4.12：\(\ln \sigma\) 的导数
- 4.13：逻辑回归的梯度
- 4.14：若数据线性可分，则极大似然解诱导一个分离平面，且权重向量的模趋于无穷
- 4.15：逻辑回归的海森矩阵为正定矩阵，因此代价函数为凹函数，存在唯一最小值，此时，极小值即为最小值
- 4.16：类标不确定时的对数似然
- 4.20：多类别逻辑回归的海森矩阵为半正定矩阵
- softmax 回归
  - 4.17：softmax 的导数
  - 4.18：交叉熵的梯度
- 贝叶斯逻辑回归
  - 4.24：用高斯线性模型的结论验证中间结果
probit 回归
- 4.19：probit 回归的梯度和海森矩阵
- 4.21：probit 函数可由 erf 函数经线性变换得到
- 4.25：probit 函数估计 \(\sigma\)，积分号下求导即可
信息准则
- 4.22：验证基于拉普拉斯估计的近似对数似然
- 4.23：推导 BIC 准则
其他
- 4.7：\(\sigma\) 函数的性质

习题详解

Exercise 4.2

Hint.
损失函数为 \(\mathcal{L}(X;W, w_0)=\sum^N_{n=1} \Vert W^Tx_n + w_0 -t_n \Vert^2_2\)，关于 \(W,w_0\) 是凸二次型，只需令梯度为零可解出。由于 \(a^T t + b = 0\) 未必是过原点的超平面，因此 \(W,w_0\) 宜分开考虑。

Solution.

\[\frac{\partial\mathcal{L}}{\partial w_0} =2N w_0 + W^T\sum^N_{n=1} x_n - \sum^N_{n=1} t_n = 0 \]

解得 \(w_0 = \bar{t}-W^T \bar{x}\)，其中 \(\bar{t},\bar{x}\) 均为样本均值，代入原损失函数有

\[\begin{aligned} \mathcal{L}(X;W, w_0) &=\sum^N_{n=1} \Vert W^Tx_n + \bar{t}-W^T \bar{x} -t_n \Vert^2_2\\ &=\sum^N_{n=1} \Vert W^T(x_n - \bar{x}) - (t_n - \bar{t}) \Vert^2_2\\ &=\sum^N_{n=1} \Vert W^T\hat{x}_n - \hat{t}_n \Vert^2_2 \end{aligned} \]

其中 \(\hat{x}_n,\hat{t}_n\) 均为中心化后的样本，均值为零。

\[\frac{\partial\mathcal{L}}{\partial W}=\left(\sum^N_{n=1}\hat{x}_n \hat{x}_n^T\right)W - \sum^N_{n=1} \hat{x}_n\hat{t}_n^T = 0 \]

解得 \(W=\left(\sum^N_{n=1}\hat{x}_n \hat{x}_n^T\right)^{\dagger}\sum^N_{n=1} \hat{x}_n\hat{t}_n^T\)。

\[\begin{aligned} a^Ty &= a^T(W^T x + w_0)\\ &= a^T(W^T x + \bar{t}-W^T \bar{x})\\ &= (Wa)^T \hat{x} + a^T \bar{t} \end{aligned} \]

注意到 \(a^T \bar{t} = N^{-1}\sum^N_{n=1} a^T t_n = -b\)， \(Wa = \left(\sum^N_{n=1}\hat{x}_n \hat{x}_n^T\right)^{\dagger}\sum^N_{n=1} \hat{x}_n\hat{t}_n^T a\)，而 \(\hat{t}_n a = t_n^T a - \bar{t}^T a=-b - (-b) = 0\)，故 \(a^T y = -b\)，即预测标签与训练标签同属一个超平面。

Comment.

上述推导过程皆为计算，下面尝试提供一个直观理解。

注意到 \(w_0 = \bar{t} - \bar{y}\)，即偏置项 \(w_0\) 源自训练标签中心和预测标签中心的差值，或说两者相差一个平移。若将观测变量中心化，将标签也中心化，由于模型是线性模型，此时偏置项 \(w_0 = \bar{\hat{t}} - W^T\bar{\hat{x}}=0-0=0\)。

若标签落在某个超平面 \(\pi\)，则中心化将 \(\pi\) 平移为过原点的平面；将观测变量中心化之后，其预测标签亦落在某个过原点的超平面 \(\pi'\)；由于最小二乘解为正交投影，故 \(\pi'\) 落在 \(\pi\) 上，即预测标签与训练标签同属一个超平面。

Exercise 4.4

Hint.
由柯西不等式，

\[\left<\mathbf{w},\mathbf{m}_2-\mathbf{m}_1\right>\leq\|\mathbf{w}\|_2\|\mathbf{m}_2-\mathbf{m}_1\|_2=\|\mathbf{m}_2-\mathbf{m}_1\|_2\quad(\|\mathbf{w}\|_2=1) \]

等号成立当且仅当 \(\mathbf{w}\) 与 \(\mathbf{m}_2-\mathbf{m}_1\) 同向，由此解得

\[\mathbf{w}=\frac{\mathbf{m}_2-\mathbf{m}_1}{\|\mathbf{m}_2-\mathbf{m}_1\|_2}. \]

上述结论的几何意义在于，优化目标为一个固定长度向量与一个给定向量的内积，内积最大当且仅当两者同向。

Comment.
本题提供了拉格朗日法以外的解法，几何意义明确。

Exercise 4.5

Solution.
\(J(\mathbf{w})=\frac{(m_2-m_1)^2}{s_1^2+s_2^2}\)，下面分别转化分子和分母。

\[\begin{aligned} (m_2-m_1)^2 &=(\mathbf{w}^T\mathbf{m}_2-\mathbf{w}^T\mathbf{m}_1)^2\\ &=(\mathbf{w}^T(\mathbf{m}_2-\mathbf{m}_1))^2\\ &=\mathbf{w}^T(\mathbf{m}_2-\mathbf{m}_1)(\mathbf{m}_2-\mathbf{m}_1)^T\mathbf{w}\\ &=\mathbf{w}^T\mathbf{S}_\text{B}\mathbf{w}\quad(\mathbf{S}_\text{B}=(\mathbf{m}_2-\mathbf{m}_1)(\mathbf{m}_2-\mathbf{m}_1)^T) \end{aligned} \]

其中，第 3 个等号用到了这样的技巧，若 \(x\in\mathbb{R}\)，则 \(x^2=xx^T=x^Tx\)。

\[\begin{aligned} s_k^2 &=\sum_{n\in\mathcal{C}_k}(y_n-m_k)^2\\ &=\sum_{n\in\mathcal{C}_k}(\mathbf{w}^T(\mathbf{x}_n-\mathbf{m}_k))^2\\ &=\sum_{n\in\mathcal{C}_k}\mathbf{w}^T(\mathbf{x}_n-\mathbf{m}_k)(\mathbf{x}_n-\mathbf{m}_k)^T\mathbf{w}\\ &=\mathbf{w}^T\left\{\sum_{n\in\mathcal{C}_k}(\mathbf{x}_n-\mathbf{m}_k)(\mathbf{x}_n-\mathbf{m}_k)^T\right\}\mathbf{w} \end{aligned} \]

其中，第 3 个等号的理由与前面推导一致。于是，

\[\begin{aligned} s^2_1+s^2_2 &=\mathbf{w}^T\left\{\sum_{n\in\mathcal{C}_1}(\mathbf{x}_n-\mathbf{m}_1)(\mathbf{x}_n-\mathbf{m}_1)^T+\sum_{n\in\mathcal{C}_2}(\mathbf{x}_n-\mathbf{m}_2)(\mathbf{x}_n-\mathbf{m}_2)^T\right\}\mathbf{w}\\ &=\mathbf{w}^T\mathbf{S}_\text{W}\mathbf{w}\quad(\mathbf{S}_\text{W}=\sum_{n\in\mathcal{C}_1}(\mathbf{x}_n-\mathbf{m}_1)(\mathbf{x}_n-\mathbf{m}_1)^T+\sum_{n\in\mathcal{C}_2}(\mathbf{x}_n-\mathbf{m}_2)(\mathbf{x}_n-\mathbf{m}_2)^T) \end{aligned} \]

综合两个结果得到

\[J(\mathbf{w})=\frac{(m_2-m_1)^2}{s_1^2+s_2^2}=\frac{\mathbf{w}^T\mathbf{S}_\text{B}\mathbf{w}}{\mathbf{w}^T\mathbf{S}_\text{W}\mathbf{w}}. \]

Exercise 4.6

Solution.
Fisher 判别法对应的最小二乘问题的损失函数可以写成

\[E=\frac{1}{2}\sum^N_{n=1}(\mathbf{w}^T\mathbf{x}_n+w_0-t_n)^2, \]

其中 \(t_n=\begin{cases} &\frac{N}{N_1},\quad n\in\mathcal{C}_1\\ &-\frac{N}{N_2},\quad n\in\mathcal{C}_2 \end{cases}\)。
上式可以写成矩阵形式

\[E=\frac{1}{2}\|\mathbf{X}\mathbf{w}+w_0\mathbf{1}_N-\mathbf{t}\|^2_2 \]

对 \(w_0,\mathbf{w}\) 求偏导得

\[\begin{aligned} \frac{\partial E}{\partial w_0} &=\mathbf{1}_N^T(\mathbf{X}\mathbf{w}+w_0\mathbf{1}_N-\mathbf{t})\\ \frac{\partial E}{\partial \mathbf{w}}&=\mathbf{X}^T(\mathbf{X}\mathbf{w}+w_0\mathbf{1}_N-\mathbf{t})\\ \end{aligned} \]

令 \(\frac{\partial E}{\partial w_0}=0\) 得

\[\begin{aligned} w_0 &=\frac{\mathbf{1}_N^T\mathbf{t}-\mathbf{1}_N^T\mathbf{X}\mathbf{w}}{\mathbf{1}_N^T\mathbf{1}_N}\\ &=\frac{1}{N}((N_1\frac{N}{N_1}-N_2\frac{N}{N_2})-N\bar{x}^T\mathbf{w})\\ &=-\bar{x}^T\mathbf{w} \end{aligned} \]

令 \(\frac{\partial E}{\partial \mathbf{w}}=0\) 得

\[\begin{aligned} (\mathbf{X}^T\mathbf{X}-\mathbf{X}^T\mathbf{1}_N\bar{x}^T)\mathbf{w} &=\mathbf{X}^T\mathbf{t}\\ \iff (\mathbf{X}^T\mathbf{X}-N\bar{x}\bar{x}^T)\mathbf{w} &=\frac{N}{N_1}\sum_{n\in\mathcal{C}_1}\mathbf{x}_n-\frac{N}{N_2}\sum_{n\in\mathcal{C}_2}\mathbf{x}_n\\ \iff (\mathbf{X}^T\mathbf{X}-N\bar{x}\bar{x}^T)\mathbf{w} &=N(\mathbf{m}_1-\mathbf{m}_2)\\ \end{aligned} \]

下面转化 \(\mathbf{S}_\text{W}\) 的形式，与上式建立关联。

\[\begin{aligned} \mathbf{S}_\text{W} &=\sum_{n\in\mathcal{C}_1}(\mathbf{x}_n-\mathbf{m}_1)(\mathbf{x}_n-\mathbf{m}_1)^T+\sum_{n\in\mathcal{C}_2}(\mathbf{x}_n-\mathbf{m}_2)(\mathbf{x}_n-\mathbf{m}_2)^T\\ &=\sum_{k=1,2}\left\{\sum_{n\in\mathcal{C}_k}\mathbf{x}_n\mathbf{x}_n^T+N_k\mathbf{m}_k\mathbf{m}_k^T-2\mathbf{m}_k\left(\sum_{n\in\mathcal{C}_k}\mathbf{x}_n\right)^T\right\}\\ &=\sum^N_{n=1}\mathbf{x}_n\mathbf{x}_n^T+\sum_{k=1,2}-N_k\mathbf{m}_k\mathbf{m}_k^T\\ &=\mathbf{X}^T\mathbf{X}-N_1\mathbf{m}_1\mathbf{m}_1^T-N_2\mathbf{m}_2\mathbf{m}_2^T \end{aligned} \]

对 \(-N\bar{x}\bar{x}^T\) 做以下变形

\[\begin{aligned} -N\bar{x}\bar{x}^T &=-\frac{1}{N}(N_1\mathbf{m}_1+N_2\mathbf{m}_2)(N_1\mathbf{m}_1+N_2\mathbf{m}_2)^T\\ &=-\frac{1}{N}(N_1^2\mathbf{m}_1\mathbf{m}_1^T+N_2^2\mathbf{m}_2\mathbf{m}_2^T+2N_1N_2\mathbf{m}_1\mathbf{m}_2^T)\\ &=-\frac{1}{N}(N_1(N-N_2)\mathbf{m}_1\mathbf{m}_1^T+(N-N_1)N_2\mathbf{m}_2\mathbf{m}_2^T+2N_1N_2\mathbf{m}_1\mathbf{m}_2^T)\\ &=-N_1\mathbf{m}_1\mathbf{m}_1^T-N_2\mathbf{m}_2\mathbf{m}_2^T+\frac{N_1N_2}{N}(\mathbf{m}_1\mathbf{m}_1^T+\mathbf{m}_2\mathbf{m}_2^T-2\mathbf{m}_1\mathbf{m}_2^T)\\ &=-N_1\mathbf{m}_1\mathbf{m}_1^T-N_2\mathbf{m}_2\mathbf{m}_2^T+\frac{N_1N_2}{N}\mathbf{S}_\text{B} \end{aligned} \]

故有

\[\mathbf{X}^T\mathbf{X}-N\bar{x}\bar{x}^T=\mathbf{S}_\text{W}+\frac{N_1N_2}{N}\mathbf{S}_\text{B}. \]

Comment.
不清楚 \(t_n\) 的由来及 Fisher 判别法与最小二乘联系的直观理解。

Exercise 4.9

Solution.

\[\begin{aligned} E &=-\ln p(\Phi,\mathbf{T})\\ &=-\ln \prod p(\phi_n|\mathbf{t}_n)p(\mathbf{t}_n)\\ &=-\sum_k\sum_{n\in\mathcal{C}_k}\ln p(\phi_n|\mathcal{C}_k)+\ln p(\mathcal{C}_k)\\ &=-\sum_k N_k\ln \pi_k +\text{const.} \end{aligned} \]

记关于 \(\pi\) 的拉格朗日函数为

\[\mathcal{L}=-\sum_k N_k\ln \pi_k+\lambda\left(\sum_k\pi_k-1\right) \]

则

\[\frac{\partial \mathcal{L}}{\partial\pi}=-\left[\frac{N_1}{\pi_1},\dots,\frac{N_K}{\pi_K}\right]^T+\lambda\mathbf{1}_K \]

令梯度为零有 \(\frac{N_1}{\pi_1}=\lambda\)，故 \(\pi_k=\lambda N_k\)，两边对 \(k\) 求和有 \(\lambda=N^{-1}\)，故 \(\pi_k=\frac{N_k}{N}\)。

Comment.
上述结论与 \(p(\phi|\mathbf{t})\) 的具体形式无关。

Exercise 4.10

Solution.
由上题推导过程，

\[\begin{aligned} E &=-\sum_k\sum_{n\in\mathcal{C}_k}\ln p(\phi_n|\mathcal{C}_k)+\ln p(\mathcal{C}_k)\\ &=-\sum_k\sum_{n\in\mathcal{C}_k}\ln \mathcal{N}(\phi_n|\mu_k,\Sigma)+\ln p(\mathcal{C}_k)\\ &=\frac{N}{2}\ln|\Sigma|+\frac{1}{2}\sum_k\sum_{n\in\mathcal{C}_k}(\phi_n-\mu_k)^T\Sigma^{-1}(\phi_n-\mu_k)+\text{const.} \end{aligned} \]

对 \(\mu_k,\Sigma\) 求偏导得

\[\begin{aligned} \frac{\partial E}{\partial\mu_k} &=\sum_{n\in\mathcal{C}_k}\Sigma^{-1}(\phi_n-\mu_k)\\ \frac{\partial E}{\partial\Sigma} &=-\frac{N}{2}\Sigma^{-1}+\frac{1}{2}\sum_k\sum_{n\in\mathcal{C}_k}(\phi_n-\mu_k)(\phi_n-\mu_k)^T \end{aligned} \]

令梯度为零有

\[\begin{aligned} \hat{\mu}_k&=\frac{1}{N_k}\sum_{n\in\mathcal{C}_k}\phi_n\\ \widehat{\Sigma}&=\frac{1}{N}\sum_k\sum_{n\in\mathcal{C}_k}(\phi_n-\mu_k)(\phi_n-\mu_k)^T \end{aligned} \]

若记 \(\mathcal{C}_k\) 的样本协方差为 \(\frac{1}{N_k}\mathbf{S}_k=\sum_{n\in\mathcal{C}_k}(\phi_n-\mu_k)(\phi_n-\mu_k)^T\)，则整个数据集的样本协方差可以写成类别协方差的加权和

\[\widehat{\Sigma}=\sum_k\frac{N_k}{N}\mathbf{S}_k, \]

上式衡量了类别不确定性对整体不确定性的贡献。

Exercise 4.11

Hint.
只需考虑单个样本，

\[\begin{aligned} \ln p(x,\mathcal{C}_k) &=\ln p(\mathcal{C}_k)+\ln p(x|\mathcal{C}_k)\\ &=\ln p(\mathcal{C}_k)+\sum^M_{m=1}\ln p(\phi_m|\mathcal{C}_k)\\ &=\ln p(\mathcal{C}_k)+\sum^M_{m=1}\sum^L_{l=1}\ln \mu_{k,ml}^{\phi_{ml}}\\ &=\ln p(\mathcal{C}_k)+\sum^M_{m=1}\sum^L_{l=1}{\phi_{ml}}\ln \mu_{k,ml}\\ \end{aligned} \]

其中，\(\mu_{k,ml}\in[0,1]\) 表示 \(\mathcal{C}_k\) 的特征分布的参数，\(\phi_{ml}\in\{0,1\}\) 表示样本特征的第 \((m,l)\) 个元素。

Exercise 4.13

Hint.

\[E(\mathbf{w})=-\mathbf{1}^T\ln p(\mathbf{t}|\mathbf{w})=-\mathbf{t}^T\ln \mathbf{y} -(1-\mathbf{t})^T\ln(1-\mathbf{y}), \]

其中 \(\mathbf{y}=\sigma(\mathbf{a}),\mathbf{a}=\Phi\mathbf{w}\)。

\[\begin{aligned} \frac{\partial E(\mathbf{w})}{\partial \mathbf{w}} &=-\frac{\partial \mathbf{a}}{\partial \mathbf{w}}\frac{\partial \mathbf{y}}{\partial \mathbf{a}}\frac{\partial \mathbf{1}^T\ln p(\mathbf{t}|\mathbf{w})}{\partial \mathbf{y}}\\ &=-\Phi^T\text{diag}(\mathbf{y}\circ(1-\mathbf{y}))\left(\mathbf{t}\oslash\mathbf{y}+(1-\mathbf{t})\oslash(1-\mathbf{y})\right)\\ &=\Phi^T\text{diag}(\mathbf{y}\circ(1-\mathbf{y}))\left((\mathbf{y}-\mathbf{t})\oslash(\mathbf{y}\circ(1-\mathbf{y}))\right)\\ &=\Phi^T(\mathbf{y}-\mathbf{t}) \end{aligned} \]

Exercise 4.14

Hint.
由上题关于梯度的推导可知，梯度为零当且仅当 \(y_n=t_n\)。若数据线性可分，则有 \(t_n=\text{sign}(\mathbf{w}^T\phi_n)\)。欲使 \(\sigma(\mathbf{w}^T\phi_n)=\text{sign}(\mathbf{w}^T\phi_n)\)，当且仅当 \(|\mathbf{w}^T\phi_n|=\infty\)，由于 \(\|\phi_n\|<\infty\)，故有 \(\|\mathbf{w}\|=\infty\)。

Comment.
若数据不是线性可分的，或者训练数据线性可分，但是总体数据分布并非线性可分，为最大化似然，往往会导致 \(\|\mathbf{w}\|\) 过大，发生过拟合，因此，控制参数的范数是防止过拟合的一种手段。

Exercise 4.17

Hint.
Softmax 函数的定义为

\[\mathbf{y}=\frac{e^{\mathbf{a}}}{\mathbf{1}^Te^{\mathbf{a}}}, \]

其梯度为

\[\begin{aligned} \frac{\partial \mathbf{y}}{\partial \mathbf{a}^T} &=\frac{1}{\mathbf{1}^T e^{\mathbf{a}}}\text{diag}(e^{\mathbf{a}})-\frac{1}{(\mathbf{1}^T e^{\mathbf{a}})^2}e^{\mathbf{a}}(e^{\mathbf{a}})^T\\ &=\text{diag}(\mathbf{y})-\mathbf{y}\mathbf{y}^T \end{aligned} \]

Exercise 4.18

Solution.

\[E(\mathbf{W})=-\ln p(\mathbf{T}|\mathbf{W})=-\text{tr}(\mathbf{T}^T\ln \mathbf{Y})=-\sum \mathbf{t}^T\ln \mathbf{y}, \]

其中，\(\mathbf{y}=\text{softmax}(\mathbf{a}),\mathbf{a}=\mathbf{W}\phi\)。为简化记号，仅推导单样本损失函数的梯度，多个样本的只需求和。

\[\begin{aligned} -\frac{\partial \ln p(\mathbf{t}|\mathbf{W})}{\partial \text{vec}(\mathbf{W})^T} &=-\frac{\partial \ln p(\mathbf{t}|\mathbf{W})}{\partial \mathbf{y}^T}\frac{\partial \mathbf{y}}{\partial \mathbf{a}^T}\frac{\partial \mathbf{a}}{\partial \text{vec}(\mathbf{W})^T}\\ &=-\left(\frac{\mathbf{t}}{\mathbf{y}}\right)^T\left(\text{diag}(\mathbf{y})-\mathbf{y}\mathbf{y}^T\right)\frac{\partial \text{vec}(\mathbf{W}\phi)}{\partial \text{vec}(\mathbf{W})^T}\\ &=-\left(\frac{\mathbf{t}}{\mathbf{y}}\right)^T\left(\text{diag}(\mathbf{y})-\mathbf{y}\mathbf{y}^T\right)\frac{\partial (\phi^T\otimes I)\text{vec}(\mathbf{W})}{\partial \text{vec}(\mathbf{W})^T}\\ &=\left(\mathbf{y}-\mathbf{t}\right)^T(\phi^T\otimes I)\\ &=((\phi\otimes I)(\mathbf{y}-\mathbf{t}))^T\\ &=\text{vec}((\mathbf{y}-\mathbf{t})\phi^T)^T\\ \end{aligned} \]

故

\[-\frac{\partial \ln p(\mathbf{t}|\mathbf{W})}{\partial \mathbf{W}}=(\mathbf{y}-\mathbf{t})\phi^T \]

故

\[\begin{aligned} \frac{\partial E(\mathbf{W})}{\partial \mathbf{W}} &=\sum -\frac{\partial \ln p(\mathbf{t}|\mathbf{W})}{\partial \mathbf{W}}\\ &=\sum (\mathbf{y}-\mathbf{t})\phi^T\\ &=(\mathbf{Y}-\mathbf{T})^T\Phi \end{aligned} \]

Exercise 4.19

Solution.

\[E(\mathbf{w})=-\mathbf{1}^T\ln p(\mathbf{t}|\mathbf{w})=-\mathbf{t}^T\ln \mathbf{y} -(1-\mathbf{t})^T\ln(1-\mathbf{y}), \]

其中 \(\mathbf{y}=\text{Probit}(\mathbf{a}),\mathbf{a}=\Phi\mathbf{w}\)，为了避免符号重用，这里用 \(\text{Probit}\) 指代 profit 函数。

\[\begin{aligned} \frac{\partial E(\mathbf{w})}{\partial \mathbf{w}} &=-\frac{\partial \mathbf{a}}{\partial \mathbf{w}}\frac{\partial \mathbf{y}}{\partial \mathbf{a}}\frac{\partial \mathbf{1}^T\ln p(\mathbf{t}|\mathbf{w})}{\partial \mathbf{y}}\\ &=-\Phi^T\text{diag}\left(\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\right)\left(\mathbf{t}\oslash\mathbf{y}+(1-\mathbf{t})\oslash(1-\mathbf{y})\right)\\ &=\Phi^T\text{diag}\left(\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\right)\left((\mathbf{y}-\mathbf{t})\oslash(\mathbf{y}\circ(1-\mathbf{y}))\right)\\ &=\frac{1}{\sqrt{2\pi}}\Phi^T\left(\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\circ(\mathbf{y}-\mathbf{t})\oslash(\mathbf{y}\circ(1-\mathbf{y}))\right)\\ \end{aligned} \]

下面计算二阶导，

\[\begin{aligned} \frac{\partial^2 E(\mathbf{w})}{\partial \mathbf{w}^2} &=\frac{\partial }{\partial \mathbf{w}^T}\frac{\partial E(\mathbf{w})}{\partial \mathbf{w}}\\ &=\frac{1}{\sqrt{2\pi}}\Phi^T\frac{\partial }{\partial \mathbf{w}^T}\left(\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\circ(\mathbf{y}-\mathbf{t})\oslash(\mathbf{y}\circ(1-\mathbf{y}))\right) \end{aligned} \]

注意到

\[\frac{\partial \mathbf{a}\circ\mathbf{b}}{\partial \mathbf{x}^T}=\text{diag}(\mathbf{a})\frac{\partial \mathbf{b}}{\partial \mathbf{x}^T}+\text{diag}(\mathbf{b})\frac{\partial \mathbf{a}}{\partial \mathbf{x}^T} \]

故

\[\begin{aligned} \frac{\partial^2 E(\mathbf{w})}{\partial \mathbf{w}^2} &=\frac{1}{\sqrt{2\pi}}\Phi^T\left[\text{diag}((\mathbf{y}-\mathbf{t})\oslash(\mathbf{y}\circ(1-\mathbf{y})))\frac{\partial \exp\left\{-\frac{\mathbf{a}^2}{2}\right\}}{\partial \mathbf{a}^T}\frac{\partial \mathbf{a}}{\partial \mathbf{w}^T}+\text{diag}\left(\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\right)\frac{\partial (\mathbf{y}-\mathbf{t})\oslash(\mathbf{y}\circ(1-\mathbf{y}))}{\partial \mathbf{y}^T}\frac{\partial \mathbf{y}}{\partial \mathbf{a}^T}\frac{\partial \mathbf{a}}{\partial \mathbf{w}^T}\right]\\ &=\frac{1}{\sqrt{2\pi}}\Phi^T\left[\text{diag}\left(\frac{-\mathbf{a}\circ(\mathbf{y}-\mathbf{t})}{\mathbf{y}\circ(1-\mathbf{y})}\circ\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\right)+\text{diag}\left(\frac{\mathbf{y}^2+\mathbf{t}-2\mathbf{t}\circ\mathbf{y}}{\mathbf{y}^2\circ(1-\mathbf{y})^2}\circ\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\circ\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\right)\right]\Phi\\ &=\frac{1}{\sqrt{2\pi}}\Phi^T\text{diag}\left(\frac{e^{-\frac{\mathbf{a}^2}{2}}}{\mathbf{y}\circ(1-\mathbf{y})}\right)\text{diag}\left(\frac{\mathbf{y}^2+\mathbf{t}-2\mathbf{t}\circ\mathbf{y}}{\mathbf{y}\circ(1-\mathbf{y})}\circ\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}-\mathbf{a}\circ(\mathbf{y}-\mathbf{t})\right)\Phi\\ \end{aligned} \]

注意到二阶导依赖于参数 \(\mathbf{w}\)，因此需要使用基于牛顿法的迭代最小二乘求解。

Exercise 4.21

Hint.

\[\begin{aligned} \Phi(a) &=\int^a_{-\infty}\mathcal{N}(\theta|0,1)\,\text{d}\theta\\ &=\frac{1}{2}+\int^a_{0}\mathcal{N}(\theta|0,1)\,\text{d}\theta\\ &=\frac{1}{2}+\int^a_{0}\frac{1}{\sqrt{2\pi}}e^{-\frac{\theta^2}{2}}\,\text{d}\theta\\ &=\frac{1}{2}\left\{1+\frac{1}{\sqrt{2}}\frac{2}{\sqrt{\pi}}\int^a_{0}e^{-\frac{\theta^2}{2}}\,\text{d}\theta\right\}\\ &=\frac{1}{2}\left\{1+\frac{1}{\sqrt{2}}\text{erf}(a)\right\}\\ \end{aligned} \]

第 2 个等号用到了高斯分布的对称性。

Exercise 4.22

Hint.

\[\begin{aligned} \ln p(\mathcal{D}) &=\ln \int p(\mathcal{D},\theta)\,\text{d}\theta\\ &\simeq \ln p(\mathcal{D},\theta_{\text{MAP}})+\ln \frac{(2\pi)^{M/2}}{|A|^{1/2}}\\ &=\ln p(\mathcal{D}|\theta_{\text{MAP}}) + \ln p(\theta_{\text{MAP}})+\frac{M}{2}\ln (2\pi) - \frac{1}{2}\ln |\mathbf{A}| \end{aligned} \]

其中第二个近似等号是由 Laplace 估计，因为 \(\theta_{\text{MAP}}\) 是 \(\ln p(\mathcal{D},\theta_{\text{MAP}})\) 的极值点。

Exercise 4.23

Solution.
把 \(p(\theta)=\mathcal{N}(\theta|\mathbf{m},\mathbf{V}_0)\) 带入上题结果可得

\[\begin{aligned} \ln p(\mathcal{D}) &\simeq\ln p(\mathcal{D}|\theta_{\text{MAP}}) + \ln \mathcal{N}(\theta_{\text{MAP}}|\mathbf{m},\mathbf{V}_0)+\frac{M}{2}\ln (2\pi) - \frac{1}{2}\ln |\mathbf{A}|\\ &=\ln p(\mathcal{D}|\theta_{\text{MAP}}) - \frac{1}{2}(\theta_{\text{MAP}}-\mathbf{m})^T\mathbf{V}_0^{-1}(\theta_{\text{MAP}}-\mathbf{m}) - \frac{1}{2}\ln |\mathbf{A}| + \text{const.}\\ \end{aligned} \]

其中 \(\text{const}\) 表示与 \(\mathcal{D},\theta_{\text{MAP}}\) 无关常数，假设先验足够平坦，即 \(\|\mathbf{V}_0\|\to\infty\)，则

\[\begin{aligned} \|(\theta_{\text{MAP}}-\mathbf{m})^T\mathbf{V}_0^{-1}(\theta_{\text{MAP}}-\mathbf{m})\|\leq \|\theta_{\text{MAP}}-\mathbf{m}\|^2\|\mathbf{V}_0\|^{-1}\to 0. \end{aligned} \]

因此，先验项可以忽略。下面考虑第 3 项。首先

\[\begin{aligned} \mathbf{A} &=-\nabla^2\ln p(\mathcal{D}|\theta_{\text{MAP}})p(\theta_{\text{MAP}})\\ &=-\nabla^2\ln p(\mathcal{D}|\theta_{\text{MAP}}) - \nabla^2\ln p(\theta_{\text{MAP}})\\ &=\mathbf{H}+\mathbf{V}_0^{-1}\\ &\approx\mathbf{H} \end{aligned} \]

最后一个约等号是因为 \(\|\mathbf{V}_0^{-1}\|\to 0\)。下面考虑 \(|\mathbf{H}|\)。

\[\begin{aligned} |\mathbf{H}| &=|\nabla^2\ln p(\mathcal{D}|\theta_{\text{MAP}})|\\ &=\left|\nabla^2\sum^N_{n=1}\ln p(x_n|\theta_{\text{MAP}})\right|\\ &\approx\left|N\nabla^2\mathbb{E}\left[\ln p(x|\theta_{\text{MAP}})\right]\right|\\ &=N^{M}\left|\nabla^2\mathbb{E}\left[\ln p(x|\theta_{\text{MAP}})\right]\right| \end{aligned} \]

故

\[\begin{aligned} \ln|\mathbf{H}| &=M\ln N + \ln \left|\nabla^2\mathbb{E}\left[\ln p(x|\theta_{\text{MAP}})\right]\right|\\ &\approx M\ln N \end{aligned} \]

其中最后一个约等号是因为 \(\frac{\ln \left|\nabla^2\mathbb{E}\left[\ln p(x|\theta_{\text{MAP}})\right]\right|}{\ln N}\to 0\,(N\to\infty)\)。
综上，我们得到了一个近似的复杂度估计指标

\[\ln p(\mathcal{D})\simeq \ln p(\mathcal{D}|\theta_{\text{MAP}}) - \frac{M}{2}\ln N. \]

这个估计成立的前提有两个

平坦先验
样本数充分大

第一个假设的合理性在于，如果毫无专家知识，那么平坦先验是一个保守的好先验，第二个假设的合理性让人疑惑，因为当样本数充分大时，最大后验估计渐进趋近于极大似然估计，但是这个指标是面向贝叶斯回归提出来的，有矛盾的地方，可能实际派上用场的场景在于，样本相对于参数维度充分大。

Comment.
本题的近似太多，难以把握，参考答案完成。

Exercise 4.24

Hint.
\(p(a)=\int\delta(a-\phi^T\mathbf{w})\mathcal{N}(\mathbf{w}|\mathbf{w}_{\text{MAP}},\mathbf{S}_N)\,\text{d}\mathbf{w}\)，易知 \(\delta(a-\phi^T\mathbf{w})=\underset{\sigma\to 0}{\lim}\,\mathcal{N}(a|\phi^T\mathbf{w},\sigma^2)\)，由高斯线性模型的结论，\(p(a)=\underset{\sigma\to 0}{\lim}\,\mathcal{N}(a|\phi^T\mathbf{w}_{\text{MAP}},\sigma^2+\phi^T\mathbf{S}_N\phi)=\mathcal{N}(a|\phi^T\mathbf{w}_{\text{MAP}},\phi^T\mathbf{S}_N\phi)\)。

Comment.
本题求解过程借用了 Dirac \(\delta\) 函数的极限定义，不知是否严谨。

Exercise 4.25

Hint.
\(\sigma'(a)=\sigma(a)\sigma(-a),\sigma'(0)=\frac{1}{4}\)。
\(\Phi'(\lambda a)=\lambda \frac{1}{\sqrt{2\pi}}e^{-\frac{(\lambda a)^2}{2}}，\Phi'(\lambda \cdot 0)=\frac{\lambda}{\sqrt{2\pi}}\)。
令 \(\frac{\lambda}{\sqrt{2\pi}}=\frac{1}{4}\)，得到 \(\lambda = \frac{\sqrt{2\pi}}{4}\)。

Comment.
原文提到，用 \(\Phi(\lambda a)\) 近似 \(\sigma(a)\)，是为了让中间积分有封闭表达式。

Exercise 4.26

Solution.

\[\begin{aligned} \int \Phi(\lambda a)\mathcal{N}(a|\mu,\sigma^2)\,\text{d}a &=\int \mathcal{N}(a|\mu,\sigma^2)\,\text{d}a\int^{\lambda a}_{-\infty}\mathcal{N}(\theta|0,1)\,\text{d}\theta\\ &=\int \mathcal{N}(z|0,1)\,\text{d}z\int^{\lambda (\mu+\sigma z)}_{-\infty}\mathcal{N}(\theta|0,1)\,\text{d}\theta\quad(a=\mu+\sigma z)\\ &=\int \mathcal{N}(z|0,1)\,\text{d}z\int^{\lambda (\mu+\sigma z)}_{-\infty}\mathcal{N}(\theta|0,1)\,\text{d}\theta\\ \end{aligned} \]

上面这个二重积分难以求解，考虑通过求导将其化为单变量积分，观察其形式。对 \(\mu\) 求导得到

\[\begin{aligned} \int \lambda\mathcal{N}(z|0,1)\mathcal{N}(\lambda (\mu+\sigma z)|0,1)\,\text{d}z &=\int \mathcal{N}(z|0,1)\mathcal{N}(\mu|\sigma z,\lambda^{-2})\,\text{d}z\\ &=\mathcal{N}(\mu|0,\lambda^{-2}+\sigma^2) \end{aligned} \]

其中，第 2 个等号是由高斯线性模型的结论。
因此

\[\begin{aligned} \int \Phi(\lambda a)\mathcal{N}(a|\mu,\sigma^2)\,\text{d}a &=\int^{\mu}_{-\infty} \mathcal{N}(\theta|0,\lambda^{-2}+\sigma^2)\,\text{d}(\theta+\sigma z)+C\\ &=\int^{\mu}_{-\infty} \mathcal{N}(\theta|0,\lambda^{-2}+\sigma^2)\,\text{d}\theta+C\\ &=\Phi\left(\frac{\mu}{\sqrt{\lambda^{-2}+\sigma^2}}\right)+C \end{aligned} \]

其中最后一个等号是把通用高斯分布转为标准正态分布。只需确定 \(C\)。令 \(\mu\to -\infty\)，则有
\(\int \Phi(\lambda a)\mathcal{N}(a|\mu,\sigma^2)\,\text{d}a\to \int 0=0,\Phi\left(\frac{\mu}{\sqrt{\lambda^{-2}+\sigma^2}}\right)\to 0\)，故 \(C=0\)，即

\[\int \Phi(\lambda a)\mathcal{N}(a|\mu,\sigma^2)\,\text{d}a =\Phi\left(\frac{\mu}{\sqrt{\lambda^{-2}+\sigma^2}}\right). \]

posted @ 2021-03-14 11:36 Rotopia 阅读(890) 评论(0) 编辑收藏举报

刷新页面返回顶部

Rotopia

PRML第四章习题答案

Chapter 4. Linear Models for Classification

习题简述

习题详解

Exercise 4.2

Exercise 4.4

Exercise 4.5

Exercise 4.6

Exercise 4.9

Exercise 4.10

Exercise 4.11

Exercise 4.13

Exercise 4.14

Exercise 4.17

Exercise 4.18

Exercise 4.19

Exercise 4.21

Exercise 4.22

Exercise 4.23

Exercise 4.24

Exercise 4.25

Exercise 4.26

公告