Chapter 4. Linear Models for Classification
更新日志(截至20210725)
- 20210725:添加习题 4.11,4.13-4.14,4.17-4.19,4.21-4.26 的详解
- 20210717:添加习题 4.4-4.6,4.9-4.10 的详解
- 20210314:首次提交,含习题简述及习题 4.2 的详解
习题简述
- 最小二乘
- 4.1:线性可分等价于不同类别数据点的凸包不交,凸优化经典结论
- 4.2:分类问题的最小二乘解与真实标签落在同一超平面
- 4.3:4.2 的结论的推广,分类问题的最小二乘解与真实标签落在同一组超平面的交
- 线性判别法
- 4.4:线性判别法的解正比于类别中心的差
- 4.5:Fisher 准则表示为类内方差与类间方差的比值,两者均可表示为参数的二次型,直接验证
- 4.6:Fisher 判别法与最小二乘法的联系
- 似然比法则
- 4.8:假设两类别样本服从相同协方差不同均值的高斯分布,推导样本点类别的后验,直接验证
- 4.9:多类别分布的类别先验的极大似然估计等于频率,为 4.10 做铺垫
- 4.10:假设不同类别样本服从相同协方差不同均值的高斯分布,计算每个类别均值的极大似然估计和协方差矩阵的极大似然估计
- 4.11:朴素贝叶斯
- 逻辑回归
- 4.12:\(\ln \sigma\) 的导数
- 4.13:逻辑回归的梯度
- 4.14:若数据线性可分,则极大似然解诱导一个分离平面,且权重向量的模趋于无穷
- 4.15:逻辑回归的海森矩阵为正定矩阵,因此代价函数为凹函数,存在唯一最小值,此时,极小值即为最小值
- 4.16:类标不确定时的对数似然
- 4.20:多类别逻辑回归的海森矩阵为半正定矩阵
- softmax 回归
- 贝叶斯逻辑回归
- probit 回归
- 4.19:probit 回归的梯度和海森矩阵
- 4.21:probit 函数可由 erf 函数经线性变换得到
- 4.25:probit 函数估计 \(\sigma\),积分号下求导即可
- 信息准则
- 其他
习题详解
Exercise 4.2
Hint.
损失函数为 \(\mathcal{L}(X;W, w_0)=\sum^N_{n=1} \Vert W^Tx_n + w_0 -t_n \Vert^2_2\),关于 \(W,w_0\) 是凸二次型,只需令梯度为零可解出。由于 \(a^T t + b = 0\) 未必是过原点的超平面,因此 \(W,w_0\) 宜分开考虑。
Solution.
\[\frac{\partial\mathcal{L}}{\partial w_0}
=2N w_0 + W^T\sum^N_{n=1} x_n - \sum^N_{n=1} t_n = 0
\]
解得 \(w_0 = \bar{t}-W^T \bar{x}\),其中 \(\bar{t},\bar{x}\) 均为样本均值,代入原损失函数有
\[\begin{aligned}
\mathcal{L}(X;W, w_0)
&=\sum^N_{n=1} \Vert W^Tx_n + \bar{t}-W^T \bar{x} -t_n \Vert^2_2\\
&=\sum^N_{n=1} \Vert W^T(x_n - \bar{x}) - (t_n - \bar{t}) \Vert^2_2\\
&=\sum^N_{n=1} \Vert W^T\hat{x}_n - \hat{t}_n \Vert^2_2
\end{aligned}
\]
其中 \(\hat{x}_n,\hat{t}_n\) 均为中心化后的样本,均值为零。
\[\frac{\partial\mathcal{L}}{\partial W}=\left(\sum^N_{n=1}\hat{x}_n \hat{x}_n^T\right)W - \sum^N_{n=1} \hat{x}_n\hat{t}_n^T = 0
\]
解得 \(W=\left(\sum^N_{n=1}\hat{x}_n \hat{x}_n^T\right)^{\dagger}\sum^N_{n=1} \hat{x}_n\hat{t}_n^T\)。
\[\begin{aligned}
a^Ty
&= a^T(W^T x + w_0)\\
&= a^T(W^T x + \bar{t}-W^T \bar{x})\\
&= (Wa)^T \hat{x} + a^T \bar{t}
\end{aligned}
\]
注意到 \(a^T \bar{t} = N^{-1}\sum^N_{n=1} a^T t_n = -b\), \(Wa = \left(\sum^N_{n=1}\hat{x}_n \hat{x}_n^T\right)^{\dagger}\sum^N_{n=1} \hat{x}_n\hat{t}_n^T a\),而 \(\hat{t}_n a = t_n^T a - \bar{t}^T a=-b - (-b) = 0\),故 \(a^T y = -b\),即预测标签与训练标签同属一个超平面。
Comment.
上述推导过程皆为计算,下面尝试提供一个直观理解。
注意到 \(w_0 = \bar{t} - \bar{y}\),即偏置项 \(w_0\) 源自训练标签中心和预测标签中心的差值,或说两者相差一个平移。若将观测变量中心化,将标签也中心化,由于模型是线性模型,此时偏置项 \(w_0 = \bar{\hat{t}} - W^T\bar{\hat{x}}=0-0=0\)。
若标签落在某个超平面 \(\pi\),则中心化将 \(\pi\) 平移为过原点的平面;将观测变量中心化之后,其预测标签亦落在某个过原点的超平面 \(\pi'\);由于最小二乘解为正交投影,故 \(\pi'\) 落在 \(\pi\) 上,即预测标签与训练标签同属一个超平面。
Exercise 4.4
Hint.
由柯西不等式,
\[\left<\mathbf{w},\mathbf{m}_2-\mathbf{m}_1\right>\leq\|\mathbf{w}\|_2\|\mathbf{m}_2-\mathbf{m}_1\|_2=\|\mathbf{m}_2-\mathbf{m}_1\|_2\quad(\|\mathbf{w}\|_2=1)
\]
等号成立当且仅当 \(\mathbf{w}\) 与 \(\mathbf{m}_2-\mathbf{m}_1\) 同向,由此解得
\[\mathbf{w}=\frac{\mathbf{m}_2-\mathbf{m}_1}{\|\mathbf{m}_2-\mathbf{m}_1\|_2}.
\]
上述结论的几何意义在于,优化目标为一个固定长度向量与一个给定向量的内积,内积最大当且仅当两者同向。
Comment.
本题提供了拉格朗日法以外的解法,几何意义明确。
Exercise 4.5
Solution.
\(J(\mathbf{w})=\frac{(m_2-m_1)^2}{s_1^2+s_2^2}\),下面分别转化分子和分母。
\[\begin{aligned}
(m_2-m_1)^2
&=(\mathbf{w}^T\mathbf{m}_2-\mathbf{w}^T\mathbf{m}_1)^2\\
&=(\mathbf{w}^T(\mathbf{m}_2-\mathbf{m}_1))^2\\
&=\mathbf{w}^T(\mathbf{m}_2-\mathbf{m}_1)(\mathbf{m}_2-\mathbf{m}_1)^T\mathbf{w}\\
&=\mathbf{w}^T\mathbf{S}_\text{B}\mathbf{w}\quad(\mathbf{S}_\text{B}=(\mathbf{m}_2-\mathbf{m}_1)(\mathbf{m}_2-\mathbf{m}_1)^T)
\end{aligned}
\]
其中,第 3 个等号用到了这样的技巧,若 \(x\in\mathbb{R}\),则 \(x^2=xx^T=x^Tx\)。
\[\begin{aligned}
s_k^2
&=\sum_{n\in\mathcal{C}_k}(y_n-m_k)^2\\
&=\sum_{n\in\mathcal{C}_k}(\mathbf{w}^T(\mathbf{x}_n-\mathbf{m}_k))^2\\
&=\sum_{n\in\mathcal{C}_k}\mathbf{w}^T(\mathbf{x}_n-\mathbf{m}_k)(\mathbf{x}_n-\mathbf{m}_k)^T\mathbf{w}\\
&=\mathbf{w}^T\left\{\sum_{n\in\mathcal{C}_k}(\mathbf{x}_n-\mathbf{m}_k)(\mathbf{x}_n-\mathbf{m}_k)^T\right\}\mathbf{w}
\end{aligned}
\]
其中,第 3 个等号的理由与前面推导一致。于是,
\[\begin{aligned}
s^2_1+s^2_2
&=\mathbf{w}^T\left\{\sum_{n\in\mathcal{C}_1}(\mathbf{x}_n-\mathbf{m}_1)(\mathbf{x}_n-\mathbf{m}_1)^T+\sum_{n\in\mathcal{C}_2}(\mathbf{x}_n-\mathbf{m}_2)(\mathbf{x}_n-\mathbf{m}_2)^T\right\}\mathbf{w}\\
&=\mathbf{w}^T\mathbf{S}_\text{W}\mathbf{w}\quad(\mathbf{S}_\text{W}=\sum_{n\in\mathcal{C}_1}(\mathbf{x}_n-\mathbf{m}_1)(\mathbf{x}_n-\mathbf{m}_1)^T+\sum_{n\in\mathcal{C}_2}(\mathbf{x}_n-\mathbf{m}_2)(\mathbf{x}_n-\mathbf{m}_2)^T)
\end{aligned}
\]
综合两个结果得到
\[J(\mathbf{w})=\frac{(m_2-m_1)^2}{s_1^2+s_2^2}=\frac{\mathbf{w}^T\mathbf{S}_\text{B}\mathbf{w}}{\mathbf{w}^T\mathbf{S}_\text{W}\mathbf{w}}.
\]
Exercise 4.6
Solution.
Fisher 判别法对应的最小二乘问题的损失函数可以写成
\[E=\frac{1}{2}\sum^N_{n=1}(\mathbf{w}^T\mathbf{x}_n+w_0-t_n)^2,
\]
其中 \(t_n=\begin{cases}
&\frac{N}{N_1},\quad n\in\mathcal{C}_1\\
&-\frac{N}{N_2},\quad n\in\mathcal{C}_2
\end{cases}\)。
上式可以写成矩阵形式
\[E=\frac{1}{2}\|\mathbf{X}\mathbf{w}+w_0\mathbf{1}_N-\mathbf{t}\|^2_2
\]
对 \(w_0,\mathbf{w}\) 求偏导得
\[\begin{aligned}
\frac{\partial E}{\partial w_0}
&=\mathbf{1}_N^T(\mathbf{X}\mathbf{w}+w_0\mathbf{1}_N-\mathbf{t})\\
\frac{\partial E}{\partial \mathbf{w}}&=\mathbf{X}^T(\mathbf{X}\mathbf{w}+w_0\mathbf{1}_N-\mathbf{t})\\
\end{aligned}
\]
令 \(\frac{\partial E}{\partial w_0}=0\) 得
\[\begin{aligned}
w_0
&=\frac{\mathbf{1}_N^T\mathbf{t}-\mathbf{1}_N^T\mathbf{X}\mathbf{w}}{\mathbf{1}_N^T\mathbf{1}_N}\\
&=\frac{1}{N}((N_1\frac{N}{N_1}-N_2\frac{N}{N_2})-N\bar{x}^T\mathbf{w})\\
&=-\bar{x}^T\mathbf{w}
\end{aligned}
\]
令 \(\frac{\partial E}{\partial \mathbf{w}}=0\) 得
\[\begin{aligned}
(\mathbf{X}^T\mathbf{X}-\mathbf{X}^T\mathbf{1}_N\bar{x}^T)\mathbf{w}
&=\mathbf{X}^T\mathbf{t}\\
\iff (\mathbf{X}^T\mathbf{X}-N\bar{x}\bar{x}^T)\mathbf{w}
&=\frac{N}{N_1}\sum_{n\in\mathcal{C}_1}\mathbf{x}_n-\frac{N}{N_2}\sum_{n\in\mathcal{C}_2}\mathbf{x}_n\\
\iff (\mathbf{X}^T\mathbf{X}-N\bar{x}\bar{x}^T)\mathbf{w}
&=N(\mathbf{m}_1-\mathbf{m}_2)\\
\end{aligned}
\]
下面转化 \(\mathbf{S}_\text{W}\) 的形式,与上式建立关联。
\[\begin{aligned}
\mathbf{S}_\text{W}
&=\sum_{n\in\mathcal{C}_1}(\mathbf{x}_n-\mathbf{m}_1)(\mathbf{x}_n-\mathbf{m}_1)^T+\sum_{n\in\mathcal{C}_2}(\mathbf{x}_n-\mathbf{m}_2)(\mathbf{x}_n-\mathbf{m}_2)^T\\
&=\sum_{k=1,2}\left\{\sum_{n\in\mathcal{C}_k}\mathbf{x}_n\mathbf{x}_n^T+N_k\mathbf{m}_k\mathbf{m}_k^T-2\mathbf{m}_k\left(\sum_{n\in\mathcal{C}_k}\mathbf{x}_n\right)^T\right\}\\
&=\sum^N_{n=1}\mathbf{x}_n\mathbf{x}_n^T+\sum_{k=1,2}-N_k\mathbf{m}_k\mathbf{m}_k^T\\
&=\mathbf{X}^T\mathbf{X}-N_1\mathbf{m}_1\mathbf{m}_1^T-N_2\mathbf{m}_2\mathbf{m}_2^T
\end{aligned}
\]
对 \(-N\bar{x}\bar{x}^T\) 做以下变形
\[\begin{aligned}
-N\bar{x}\bar{x}^T
&=-\frac{1}{N}(N_1\mathbf{m}_1+N_2\mathbf{m}_2)(N_1\mathbf{m}_1+N_2\mathbf{m}_2)^T\\
&=-\frac{1}{N}(N_1^2\mathbf{m}_1\mathbf{m}_1^T+N_2^2\mathbf{m}_2\mathbf{m}_2^T+2N_1N_2\mathbf{m}_1\mathbf{m}_2^T)\\
&=-\frac{1}{N}(N_1(N-N_2)\mathbf{m}_1\mathbf{m}_1^T+(N-N_1)N_2\mathbf{m}_2\mathbf{m}_2^T+2N_1N_2\mathbf{m}_1\mathbf{m}_2^T)\\
&=-N_1\mathbf{m}_1\mathbf{m}_1^T-N_2\mathbf{m}_2\mathbf{m}_2^T+\frac{N_1N_2}{N}(\mathbf{m}_1\mathbf{m}_1^T+\mathbf{m}_2\mathbf{m}_2^T-2\mathbf{m}_1\mathbf{m}_2^T)\\
&=-N_1\mathbf{m}_1\mathbf{m}_1^T-N_2\mathbf{m}_2\mathbf{m}_2^T+\frac{N_1N_2}{N}\mathbf{S}_\text{B}
\end{aligned}
\]
故有
\[\mathbf{X}^T\mathbf{X}-N\bar{x}\bar{x}^T=\mathbf{S}_\text{W}+\frac{N_1N_2}{N}\mathbf{S}_\text{B}.
\]
Comment.
不清楚 \(t_n\) 的由来及 Fisher 判别法与最小二乘联系的直观理解。
Exercise 4.9
Solution.
\[\begin{aligned}
E
&=-\ln p(\Phi,\mathbf{T})\\
&=-\ln \prod p(\phi_n|\mathbf{t}_n)p(\mathbf{t}_n)\\
&=-\sum_k\sum_{n\in\mathcal{C}_k}\ln p(\phi_n|\mathcal{C}_k)+\ln p(\mathcal{C}_k)\\
&=-\sum_k N_k\ln \pi_k +\text{const.}
\end{aligned}
\]
记关于 \(\pi\) 的拉格朗日函数为
\[\mathcal{L}=-\sum_k N_k\ln \pi_k+\lambda\left(\sum_k\pi_k-1\right)
\]
则
\[\frac{\partial \mathcal{L}}{\partial\pi}=-\left[\frac{N_1}{\pi_1},\dots,\frac{N_K}{\pi_K}\right]^T+\lambda\mathbf{1}_K
\]
令梯度为零有 \(\frac{N_1}{\pi_1}=\lambda\),故 \(\pi_k=\lambda N_k\),两边对 \(k\) 求和有 \(\lambda=N^{-1}\),故 \(\pi_k=\frac{N_k}{N}\)。
Comment.
上述结论与 \(p(\phi|\mathbf{t})\) 的具体形式无关。
Exercise 4.10
Solution.
由上题推导过程,
\[\begin{aligned}
E
&=-\sum_k\sum_{n\in\mathcal{C}_k}\ln p(\phi_n|\mathcal{C}_k)+\ln p(\mathcal{C}_k)\\
&=-\sum_k\sum_{n\in\mathcal{C}_k}\ln \mathcal{N}(\phi_n|\mu_k,\Sigma)+\ln p(\mathcal{C}_k)\\
&=\frac{N}{2}\ln|\Sigma|+\frac{1}{2}\sum_k\sum_{n\in\mathcal{C}_k}(\phi_n-\mu_k)^T\Sigma^{-1}(\phi_n-\mu_k)+\text{const.}
\end{aligned}
\]
对 \(\mu_k,\Sigma\) 求偏导得
\[\begin{aligned}
\frac{\partial E}{\partial\mu_k}
&=\sum_{n\in\mathcal{C}_k}\Sigma^{-1}(\phi_n-\mu_k)\\
\frac{\partial E}{\partial\Sigma}
&=-\frac{N}{2}\Sigma^{-1}+\frac{1}{2}\sum_k\sum_{n\in\mathcal{C}_k}(\phi_n-\mu_k)(\phi_n-\mu_k)^T
\end{aligned}
\]
令梯度为零有
\[\begin{aligned}
\hat{\mu}_k&=\frac{1}{N_k}\sum_{n\in\mathcal{C}_k}\phi_n\\
\widehat{\Sigma}&=\frac{1}{N}\sum_k\sum_{n\in\mathcal{C}_k}(\phi_n-\mu_k)(\phi_n-\mu_k)^T
\end{aligned}
\]
若记 \(\mathcal{C}_k\) 的样本协方差为 \(\frac{1}{N_k}\mathbf{S}_k=\sum_{n\in\mathcal{C}_k}(\phi_n-\mu_k)(\phi_n-\mu_k)^T\),则整个数据集的样本协方差可以写成类别协方差的加权和
\[\widehat{\Sigma}=\sum_k\frac{N_k}{N}\mathbf{S}_k,
\]
上式衡量了类别不确定性对整体不确定性的贡献。
Exercise 4.11
Hint.
只需考虑单个样本,
\[\begin{aligned}
\ln p(x,\mathcal{C}_k)
&=\ln p(\mathcal{C}_k)+\ln p(x|\mathcal{C}_k)\\
&=\ln p(\mathcal{C}_k)+\sum^M_{m=1}\ln p(\phi_m|\mathcal{C}_k)\\
&=\ln p(\mathcal{C}_k)+\sum^M_{m=1}\sum^L_{l=1}\ln \mu_{k,ml}^{\phi_{ml}}\\
&=\ln p(\mathcal{C}_k)+\sum^M_{m=1}\sum^L_{l=1}{\phi_{ml}}\ln \mu_{k,ml}\\
\end{aligned}
\]
其中,\(\mu_{k,ml}\in[0,1]\) 表示 \(\mathcal{C}_k\) 的特征分布的参数,\(\phi_{ml}\in\{0,1\}\) 表示样本特征的第 \((m,l)\) 个元素。
Exercise 4.13
Hint.
\[E(\mathbf{w})=-\mathbf{1}^T\ln p(\mathbf{t}|\mathbf{w})=-\mathbf{t}^T\ln \mathbf{y} -(1-\mathbf{t})^T\ln(1-\mathbf{y}),
\]
其中 \(\mathbf{y}=\sigma(\mathbf{a}),\mathbf{a}=\Phi\mathbf{w}\)。
\[\begin{aligned}
\frac{\partial E(\mathbf{w})}{\partial \mathbf{w}}
&=-\frac{\partial \mathbf{a}}{\partial \mathbf{w}}\frac{\partial \mathbf{y}}{\partial \mathbf{a}}\frac{\partial \mathbf{1}^T\ln p(\mathbf{t}|\mathbf{w})}{\partial \mathbf{y}}\\
&=-\Phi^T\text{diag}(\mathbf{y}\circ(1-\mathbf{y}))\left(\mathbf{t}\oslash\mathbf{y}+(1-\mathbf{t})\oslash(1-\mathbf{y})\right)\\
&=\Phi^T\text{diag}(\mathbf{y}\circ(1-\mathbf{y}))\left((\mathbf{y}-\mathbf{t})\oslash(\mathbf{y}\circ(1-\mathbf{y}))\right)\\
&=\Phi^T(\mathbf{y}-\mathbf{t})
\end{aligned}
\]
Exercise 4.14
Hint.
由上题关于梯度的推导可知,梯度为零当且仅当 \(y_n=t_n\)。若数据线性可分,则有 \(t_n=\text{sign}(\mathbf{w}^T\phi_n)\)。欲使 \(\sigma(\mathbf{w}^T\phi_n)=\text{sign}(\mathbf{w}^T\phi_n)\),当且仅当 \(|\mathbf{w}^T\phi_n|=\infty\),由于 \(\|\phi_n\|<\infty\),故有 \(\|\mathbf{w}\|=\infty\)。
Comment.
若数据不是线性可分的,或者训练数据线性可分,但是总体数据分布并非线性可分,为最大化似然,往往会导致 \(\|\mathbf{w}\|\) 过大,发生过拟合,因此,控制参数的范数是防止过拟合的一种手段。
Exercise 4.17
Hint.
Softmax 函数的定义为
\[\mathbf{y}=\frac{e^{\mathbf{a}}}{\mathbf{1}^Te^{\mathbf{a}}},
\]
其梯度为
\[\begin{aligned}
\frac{\partial \mathbf{y}}{\partial \mathbf{a}^T}
&=\frac{1}{\mathbf{1}^T e^{\mathbf{a}}}\text{diag}(e^{\mathbf{a}})-\frac{1}{(\mathbf{1}^T e^{\mathbf{a}})^2}e^{\mathbf{a}}(e^{\mathbf{a}})^T\\
&=\text{diag}(\mathbf{y})-\mathbf{y}\mathbf{y}^T
\end{aligned}
\]
Exercise 4.18
Solution.
\[E(\mathbf{W})=-\ln p(\mathbf{T}|\mathbf{W})=-\text{tr}(\mathbf{T}^T\ln \mathbf{Y})=-\sum \mathbf{t}^T\ln \mathbf{y},
\]
其中,\(\mathbf{y}=\text{softmax}(\mathbf{a}),\mathbf{a}=\mathbf{W}\phi\)。为简化记号,仅推导单样本损失函数的梯度,多个样本的只需求和。
\[\begin{aligned}
-\frac{\partial \ln p(\mathbf{t}|\mathbf{W})}{\partial \text{vec}(\mathbf{W})^T}
&=-\frac{\partial \ln p(\mathbf{t}|\mathbf{W})}{\partial \mathbf{y}^T}\frac{\partial \mathbf{y}}{\partial \mathbf{a}^T}\frac{\partial \mathbf{a}}{\partial \text{vec}(\mathbf{W})^T}\\
&=-\left(\frac{\mathbf{t}}{\mathbf{y}}\right)^T\left(\text{diag}(\mathbf{y})-\mathbf{y}\mathbf{y}^T\right)\frac{\partial \text{vec}(\mathbf{W}\phi)}{\partial \text{vec}(\mathbf{W})^T}\\
&=-\left(\frac{\mathbf{t}}{\mathbf{y}}\right)^T\left(\text{diag}(\mathbf{y})-\mathbf{y}\mathbf{y}^T\right)\frac{\partial (\phi^T\otimes I)\text{vec}(\mathbf{W})}{\partial \text{vec}(\mathbf{W})^T}\\
&=\left(\mathbf{y}-\mathbf{t}\right)^T(\phi^T\otimes I)\\
&=((\phi\otimes I)(\mathbf{y}-\mathbf{t}))^T\\
&=\text{vec}((\mathbf{y}-\mathbf{t})\phi^T)^T\\
\end{aligned}
\]
故
\[-\frac{\partial \ln p(\mathbf{t}|\mathbf{W})}{\partial \mathbf{W}}=(\mathbf{y}-\mathbf{t})\phi^T
\]
故
\[\begin{aligned}
\frac{\partial E(\mathbf{W})}{\partial \mathbf{W}}
&=\sum -\frac{\partial \ln p(\mathbf{t}|\mathbf{W})}{\partial \mathbf{W}}\\
&=\sum (\mathbf{y}-\mathbf{t})\phi^T\\
&=(\mathbf{Y}-\mathbf{T})^T\Phi
\end{aligned}
\]
Exercise 4.19
Solution.
\[E(\mathbf{w})=-\mathbf{1}^T\ln p(\mathbf{t}|\mathbf{w})=-\mathbf{t}^T\ln \mathbf{y} -(1-\mathbf{t})^T\ln(1-\mathbf{y}),
\]
其中 \(\mathbf{y}=\text{Probit}(\mathbf{a}),\mathbf{a}=\Phi\mathbf{w}\),为了避免符号重用,这里用 \(\text{Probit}\) 指代 profit 函数。
\[\begin{aligned}
\frac{\partial E(\mathbf{w})}{\partial \mathbf{w}}
&=-\frac{\partial \mathbf{a}}{\partial \mathbf{w}}\frac{\partial \mathbf{y}}{\partial \mathbf{a}}\frac{\partial \mathbf{1}^T\ln p(\mathbf{t}|\mathbf{w})}{\partial \mathbf{y}}\\
&=-\Phi^T\text{diag}\left(\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\right)\left(\mathbf{t}\oslash\mathbf{y}+(1-\mathbf{t})\oslash(1-\mathbf{y})\right)\\
&=\Phi^T\text{diag}\left(\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\right)\left((\mathbf{y}-\mathbf{t})\oslash(\mathbf{y}\circ(1-\mathbf{y}))\right)\\
&=\frac{1}{\sqrt{2\pi}}\Phi^T\left(\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\circ(\mathbf{y}-\mathbf{t})\oslash(\mathbf{y}\circ(1-\mathbf{y}))\right)\\
\end{aligned}
\]
下面计算二阶导,
\[\begin{aligned}
\frac{\partial^2 E(\mathbf{w})}{\partial \mathbf{w}^2}
&=\frac{\partial }{\partial \mathbf{w}^T}\frac{\partial E(\mathbf{w})}{\partial \mathbf{w}}\\
&=\frac{1}{\sqrt{2\pi}}\Phi^T\frac{\partial }{\partial \mathbf{w}^T}\left(\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\circ(\mathbf{y}-\mathbf{t})\oslash(\mathbf{y}\circ(1-\mathbf{y}))\right)
\end{aligned}
\]
注意到
\[\frac{\partial \mathbf{a}\circ\mathbf{b}}{\partial \mathbf{x}^T}=\text{diag}(\mathbf{a})\frac{\partial \mathbf{b}}{\partial \mathbf{x}^T}+\text{diag}(\mathbf{b})\frac{\partial \mathbf{a}}{\partial \mathbf{x}^T}
\]
故
\[\begin{aligned}
\frac{\partial^2 E(\mathbf{w})}{\partial \mathbf{w}^2}
&=\frac{1}{\sqrt{2\pi}}\Phi^T\left[\text{diag}((\mathbf{y}-\mathbf{t})\oslash(\mathbf{y}\circ(1-\mathbf{y})))\frac{\partial \exp\left\{-\frac{\mathbf{a}^2}{2}\right\}}{\partial \mathbf{a}^T}\frac{\partial \mathbf{a}}{\partial \mathbf{w}^T}+\text{diag}\left(\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\right)\frac{\partial (\mathbf{y}-\mathbf{t})\oslash(\mathbf{y}\circ(1-\mathbf{y}))}{\partial \mathbf{y}^T}\frac{\partial \mathbf{y}}{\partial \mathbf{a}^T}\frac{\partial \mathbf{a}}{\partial \mathbf{w}^T}\right]\\
&=\frac{1}{\sqrt{2\pi}}\Phi^T\left[\text{diag}\left(\frac{-\mathbf{a}\circ(\mathbf{y}-\mathbf{t})}{\mathbf{y}\circ(1-\mathbf{y})}\circ\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\right)+\text{diag}\left(\frac{\mathbf{y}^2+\mathbf{t}-2\mathbf{t}\circ\mathbf{y}}{\mathbf{y}^2\circ(1-\mathbf{y})^2}\circ\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\circ\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\right)\right]\Phi\\
&=\frac{1}{\sqrt{2\pi}}\Phi^T\text{diag}\left(\frac{e^{-\frac{\mathbf{a}^2}{2}}}{\mathbf{y}\circ(1-\mathbf{y})}\right)\text{diag}\left(\frac{\mathbf{y}^2+\mathbf{t}-2\mathbf{t}\circ\mathbf{y}}{\mathbf{y}\circ(1-\mathbf{y})}\circ\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}-\mathbf{a}\circ(\mathbf{y}-\mathbf{t})\right)\Phi\\
\end{aligned}
\]
注意到二阶导依赖于参数 \(\mathbf{w}\),因此需要使用基于牛顿法的迭代最小二乘求解。
Exercise 4.21
Hint.
\[\begin{aligned}
\Phi(a)
&=\int^a_{-\infty}\mathcal{N}(\theta|0,1)\,\text{d}\theta\\
&=\frac{1}{2}+\int^a_{0}\mathcal{N}(\theta|0,1)\,\text{d}\theta\\
&=\frac{1}{2}+\int^a_{0}\frac{1}{\sqrt{2\pi}}e^{-\frac{\theta^2}{2}}\,\text{d}\theta\\
&=\frac{1}{2}\left\{1+\frac{1}{\sqrt{2}}\frac{2}{\sqrt{\pi}}\int^a_{0}e^{-\frac{\theta^2}{2}}\,\text{d}\theta\right\}\\
&=\frac{1}{2}\left\{1+\frac{1}{\sqrt{2}}\text{erf}(a)\right\}\\
\end{aligned}
\]
第 2 个等号用到了高斯分布的对称性。
Exercise 4.22
Hint.
\[\begin{aligned}
\ln p(\mathcal{D})
&=\ln \int p(\mathcal{D},\theta)\,\text{d}\theta\\
&\simeq \ln p(\mathcal{D},\theta_{\text{MAP}})+\ln \frac{(2\pi)^{M/2}}{|A|^{1/2}}\\
&=\ln p(\mathcal{D}|\theta_{\text{MAP}}) + \ln p(\theta_{\text{MAP}})+\frac{M}{2}\ln (2\pi) - \frac{1}{2}\ln |\mathbf{A}|
\end{aligned}
\]
其中第二个近似等号是由 Laplace 估计,因为 \(\theta_{\text{MAP}}\) 是 \(\ln p(\mathcal{D},\theta_{\text{MAP}})\) 的极值点。
Exercise 4.23
Solution.
把 \(p(\theta)=\mathcal{N}(\theta|\mathbf{m},\mathbf{V}_0)\) 带入上题结果可得
\[\begin{aligned}
\ln p(\mathcal{D})
&\simeq\ln p(\mathcal{D}|\theta_{\text{MAP}}) + \ln \mathcal{N}(\theta_{\text{MAP}}|\mathbf{m},\mathbf{V}_0)+\frac{M}{2}\ln (2\pi) - \frac{1}{2}\ln |\mathbf{A}|\\
&=\ln p(\mathcal{D}|\theta_{\text{MAP}}) - \frac{1}{2}(\theta_{\text{MAP}}-\mathbf{m})^T\mathbf{V}_0^{-1}(\theta_{\text{MAP}}-\mathbf{m}) - \frac{1}{2}\ln |\mathbf{A}| + \text{const.}\\
\end{aligned}
\]
其中 \(\text{const}\) 表示与 \(\mathcal{D},\theta_{\text{MAP}}\) 无关常数, 假设先验足够平坦,即 \(\|\mathbf{V}_0\|\to\infty\),则
\[\begin{aligned}
\|(\theta_{\text{MAP}}-\mathbf{m})^T\mathbf{V}_0^{-1}(\theta_{\text{MAP}}-\mathbf{m})\|\leq \|\theta_{\text{MAP}}-\mathbf{m}\|^2\|\mathbf{V}_0\|^{-1}\to 0.
\end{aligned}
\]
因此,先验项可以忽略。下面考虑第 3 项。首先
\[\begin{aligned}
\mathbf{A}
&=-\nabla^2\ln p(\mathcal{D}|\theta_{\text{MAP}})p(\theta_{\text{MAP}})\\
&=-\nabla^2\ln p(\mathcal{D}|\theta_{\text{MAP}}) - \nabla^2\ln p(\theta_{\text{MAP}})\\
&=\mathbf{H}+\mathbf{V}_0^{-1}\\
&\approx\mathbf{H}
\end{aligned}
\]
最后一个约等号是因为 \(\|\mathbf{V}_0^{-1}\|\to 0\)。下面考虑 \(|\mathbf{H}|\)。
\[\begin{aligned}
|\mathbf{H}|
&=|\nabla^2\ln p(\mathcal{D}|\theta_{\text{MAP}})|\\
&=\left|\nabla^2\sum^N_{n=1}\ln p(x_n|\theta_{\text{MAP}})\right|\\
&\approx\left|N\nabla^2\mathbb{E}\left[\ln p(x|\theta_{\text{MAP}})\right]\right|\\
&=N^{M}\left|\nabla^2\mathbb{E}\left[\ln p(x|\theta_{\text{MAP}})\right]\right|
\end{aligned}
\]
故
\[\begin{aligned}
\ln|\mathbf{H}|
&=M\ln N + \ln \left|\nabla^2\mathbb{E}\left[\ln p(x|\theta_{\text{MAP}})\right]\right|\\
&\approx M\ln N
\end{aligned}
\]
其中最后一个约等号是因为 \(\frac{\ln \left|\nabla^2\mathbb{E}\left[\ln p(x|\theta_{\text{MAP}})\right]\right|}{\ln N}\to 0\,(N\to\infty)\)。
综上,我们得到了一个近似的复杂度估计指标
\[\ln p(\mathcal{D})\simeq \ln p(\mathcal{D}|\theta_{\text{MAP}}) - \frac{M}{2}\ln N.
\]
这个估计成立的前提有两个
- 平坦先验
- 样本数充分大
第一个假设的合理性在于,如果毫无专家知识,那么平坦先验是一个保守的好先验,第二个假设的合理性让人疑惑,因为当样本数充分大时,最大后验估计渐进趋近于极大似然估计,但是这个指标是面向贝叶斯回归提出来的,有矛盾的地方,可能实际派上用场的场景在于,样本相对于参数维度充分大。
Comment.
本题的近似太多,难以把握,参考答案完成。
Exercise 4.24
Hint.
\(p(a)=\int\delta(a-\phi^T\mathbf{w})\mathcal{N}(\mathbf{w}|\mathbf{w}_{\text{MAP}},\mathbf{S}_N)\,\text{d}\mathbf{w}\),易知 \(\delta(a-\phi^T\mathbf{w})=\underset{\sigma\to 0}{\lim}\,\mathcal{N}(a|\phi^T\mathbf{w},\sigma^2)\),由高斯线性模型的结论,\(p(a)=\underset{\sigma\to 0}{\lim}\,\mathcal{N}(a|\phi^T\mathbf{w}_{\text{MAP}},\sigma^2+\phi^T\mathbf{S}_N\phi)=\mathcal{N}(a|\phi^T\mathbf{w}_{\text{MAP}},\phi^T\mathbf{S}_N\phi)\)。
Comment.
本题求解过程借用了 Dirac \(\delta\) 函数的极限定义,不知是否严谨。
Exercise 4.25
Hint.
\(\sigma'(a)=\sigma(a)\sigma(-a),\sigma'(0)=\frac{1}{4}\)。
\(\Phi'(\lambda a)=\lambda \frac{1}{\sqrt{2\pi}}e^{-\frac{(\lambda a)^2}{2}},\Phi'(\lambda \cdot 0)=\frac{\lambda}{\sqrt{2\pi}}\)。
令 \(\frac{\lambda}{\sqrt{2\pi}}=\frac{1}{4}\),得到 \(\lambda = \frac{\sqrt{2\pi}}{4}\)。
Comment.
原文提到,用 \(\Phi(\lambda a)\) 近似 \(\sigma(a)\),是为了让中间积分有封闭表达式。
Exercise 4.26
Solution.
\[\begin{aligned}
\int \Phi(\lambda a)\mathcal{N}(a|\mu,\sigma^2)\,\text{d}a
&=\int \mathcal{N}(a|\mu,\sigma^2)\,\text{d}a\int^{\lambda a}_{-\infty}\mathcal{N}(\theta|0,1)\,\text{d}\theta\\
&=\int \mathcal{N}(z|0,1)\,\text{d}z\int^{\lambda (\mu+\sigma z)}_{-\infty}\mathcal{N}(\theta|0,1)\,\text{d}\theta\quad(a=\mu+\sigma z)\\
&=\int \mathcal{N}(z|0,1)\,\text{d}z\int^{\lambda (\mu+\sigma z)}_{-\infty}\mathcal{N}(\theta|0,1)\,\text{d}\theta\\
\end{aligned}
\]
上面这个二重积分难以求解,考虑通过求导将其化为单变量积分,观察其形式。对 \(\mu\) 求导得到
\[\begin{aligned}
\int \lambda\mathcal{N}(z|0,1)\mathcal{N}(\lambda (\mu+\sigma z)|0,1)\,\text{d}z
&=\int \mathcal{N}(z|0,1)\mathcal{N}(\mu|\sigma z,\lambda^{-2})\,\text{d}z\\
&=\mathcal{N}(\mu|0,\lambda^{-2}+\sigma^2)
\end{aligned}
\]
其中,第 2 个等号是由高斯线性模型的结论。
因此
\[\begin{aligned}
\int \Phi(\lambda a)\mathcal{N}(a|\mu,\sigma^2)\,\text{d}a
&=\int^{\mu}_{-\infty} \mathcal{N}(\theta|0,\lambda^{-2}+\sigma^2)\,\text{d}(\theta+\sigma z)+C\\
&=\int^{\mu}_{-\infty} \mathcal{N}(\theta|0,\lambda^{-2}+\sigma^2)\,\text{d}\theta+C\\
&=\Phi\left(\frac{\mu}{\sqrt{\lambda^{-2}+\sigma^2}}\right)+C
\end{aligned}
\]
其中最后一个等号是把通用高斯分布转为标准正态分布。只需确定 \(C\)。令 \(\mu\to -\infty\),则有
\(\int \Phi(\lambda a)\mathcal{N}(a|\mu,\sigma^2)\,\text{d}a\to \int 0=0,\Phi\left(\frac{\mu}{\sqrt{\lambda^{-2}+\sigma^2}}\right)\to 0\),故 \(C=0\),即
\[\int \Phi(\lambda a)\mathcal{N}(a|\mu,\sigma^2)\,\text{d}a
=\Phi\left(\frac{\mu}{\sqrt{\lambda^{-2}+\sigma^2}}\right).
\]