Fork me on GitHub

PRML第四章习题答案

Chapter 4. Linear Models for Classification

更新日志(截至20210725)
  • 20210725:添加习题 4.11,4.13-4.14,4.17-4.19,4.21-4.26 的详解
  • 20210717:添加习题 4.4-4.6,4.9-4.10 的详解
  • 20210314:首次提交,含习题简述及习题 4.2 的详解

习题简述

  • 最小二乘
    • 4.1:线性可分等价于不同类别数据点的凸包不交,凸优化经典结论
    • 4.2:分类问题的最小二乘解与真实标签落在同一超平面
    • 4.3:4.2 的结论的推广,分类问题的最小二乘解与真实标签落在同一组超平面的交
  • 线性判别法
    • 4.4:线性判别法的解正比于类别中心的差
    • 4.5:Fisher 准则表示为类内方差与类间方差的比值,两者均可表示为参数的二次型,直接验证
    • 4.6:Fisher 判别法与最小二乘法的联系
  • 似然比法则
    • 4.8:假设两类别样本服从相同协方差不同均值的高斯分布,推导样本点类别的后验,直接验证
    • 4.9:多类别分布的类别先验的极大似然估计等于频率,为 4.10 做铺垫
    • 4.10:假设不同类别样本服从相同协方差不同均值的高斯分布,计算每个类别均值的极大似然估计和协方差矩阵的极大似然估计
    • 4.11:朴素贝叶斯
  • 逻辑回归
    • 4.12:\(\ln \sigma\) 的导数
    • 4.13:逻辑回归的梯度
    • 4.14:若数据线性可分,则极大似然解诱导一个分离平面,且权重向量的模趋于无穷
    • 4.15:逻辑回归的海森矩阵为正定矩阵,因此代价函数为凹函数,存在唯一最小值,此时,极小值即为最小值
    • 4.16:类标不确定时的对数似然
    • 4.20:多类别逻辑回归的海森矩阵为半正定矩阵
    • softmax 回归
      • 4.17:softmax 的导数
      • 4.18:交叉熵的梯度
    • 贝叶斯逻辑回归
      • 4.24:用高斯线性模型的结论验证中间结果
  • probit 回归
    • 4.19:probit 回归的梯度和海森矩阵
    • 4.21:probit 函数可由 erf 函数经线性变换得到
    • 4.25:probit 函数估计 \(\sigma\),积分号下求导即可
  • 信息准则
    • 4.22:验证基于拉普拉斯估计的近似对数似然
    • 4.23:推导 BIC 准则
  • 其他
    • 4.7:\(\sigma\) 函数的性质

习题详解

Exercise 4.2


Hint.
损失函数为 \(\mathcal{L}(X;W, w_0)=\sum^N_{n=1} \Vert W^Tx_n + w_0 -t_n \Vert^2_2\),关于 \(W,w_0\) 是凸二次型,只需令梯度为零可解出。由于 \(a^T t + b = 0\) 未必是过原点的超平面,因此 \(W,w_0\) 宜分开考虑。


Solution.

\[\frac{\partial\mathcal{L}}{\partial w_0} =2N w_0 + W^T\sum^N_{n=1} x_n - \sum^N_{n=1} t_n = 0 \]

解得 \(w_0 = \bar{t}-W^T \bar{x}\),其中 \(\bar{t},\bar{x}\) 均为样本均值,代入原损失函数有

\[\begin{aligned} \mathcal{L}(X;W, w_0) &=\sum^N_{n=1} \Vert W^Tx_n + \bar{t}-W^T \bar{x} -t_n \Vert^2_2\\ &=\sum^N_{n=1} \Vert W^T(x_n - \bar{x}) - (t_n - \bar{t}) \Vert^2_2\\ &=\sum^N_{n=1} \Vert W^T\hat{x}_n - \hat{t}_n \Vert^2_2 \end{aligned} \]

其中 \(\hat{x}_n,\hat{t}_n\) 均为中心化后的样本,均值为零。

\[\frac{\partial\mathcal{L}}{\partial W}=\left(\sum^N_{n=1}\hat{x}_n \hat{x}_n^T\right)W - \sum^N_{n=1} \hat{x}_n\hat{t}_n^T = 0 \]

解得 \(W=\left(\sum^N_{n=1}\hat{x}_n \hat{x}_n^T\right)^{\dagger}\sum^N_{n=1} \hat{x}_n\hat{t}_n^T\)

\[\begin{aligned} a^Ty &= a^T(W^T x + w_0)\\ &= a^T(W^T x + \bar{t}-W^T \bar{x})\\ &= (Wa)^T \hat{x} + a^T \bar{t} \end{aligned} \]

注意到 \(a^T \bar{t} = N^{-1}\sum^N_{n=1} a^T t_n = -b\)\(Wa = \left(\sum^N_{n=1}\hat{x}_n \hat{x}_n^T\right)^{\dagger}\sum^N_{n=1} \hat{x}_n\hat{t}_n^T a\),而 \(\hat{t}_n a = t_n^T a - \bar{t}^T a=-b - (-b) = 0\),故 \(a^T y = -b\),即预测标签与训练标签同属一个超平面。


Comment.

上述推导过程皆为计算,下面尝试提供一个直观理解。

注意到 \(w_0 = \bar{t} - \bar{y}\),即偏置项 \(w_0\) 源自训练标签中心和预测标签中心的差值,或说两者相差一个平移。若将观测变量中心化,将标签也中心化,由于模型是线性模型,此时偏置项 \(w_0 = \bar{\hat{t}} - W^T\bar{\hat{x}}=0-0=0\)

若标签落在某个超平面 \(\pi\),则中心化将 \(\pi\) 平移为过原点的平面;将观测变量中心化之后,其预测标签亦落在某个过原点的超平面 \(\pi'\);由于最小二乘解为正交投影,故 \(\pi'\) 落在 \(\pi\) 上,即预测标签与训练标签同属一个超平面。


Exercise 4.4


Hint.
由柯西不等式,

\[\left<\mathbf{w},\mathbf{m}_2-\mathbf{m}_1\right>\leq\|\mathbf{w}\|_2\|\mathbf{m}_2-\mathbf{m}_1\|_2=\|\mathbf{m}_2-\mathbf{m}_1\|_2\quad(\|\mathbf{w}\|_2=1) \]

等号成立当且仅当 \(\mathbf{w}\)\(\mathbf{m}_2-\mathbf{m}_1\) 同向,由此解得

\[\mathbf{w}=\frac{\mathbf{m}_2-\mathbf{m}_1}{\|\mathbf{m}_2-\mathbf{m}_1\|_2}. \]

上述结论的几何意义在于,优化目标为一个固定长度向量与一个给定向量的内积,内积最大当且仅当两者同向。


Comment.
本题提供了拉格朗日法以外的解法,几何意义明确。


Exercise 4.5


Solution.
\(J(\mathbf{w})=\frac{(m_2-m_1)^2}{s_1^2+s_2^2}\),下面分别转化分子和分母。

\[\begin{aligned} (m_2-m_1)^2 &=(\mathbf{w}^T\mathbf{m}_2-\mathbf{w}^T\mathbf{m}_1)^2\\ &=(\mathbf{w}^T(\mathbf{m}_2-\mathbf{m}_1))^2\\ &=\mathbf{w}^T(\mathbf{m}_2-\mathbf{m}_1)(\mathbf{m}_2-\mathbf{m}_1)^T\mathbf{w}\\ &=\mathbf{w}^T\mathbf{S}_\text{B}\mathbf{w}\quad(\mathbf{S}_\text{B}=(\mathbf{m}_2-\mathbf{m}_1)(\mathbf{m}_2-\mathbf{m}_1)^T) \end{aligned} \]

其中,第 3 个等号用到了这样的技巧,若 \(x\in\mathbb{R}\),则 \(x^2=xx^T=x^Tx\)

\[\begin{aligned} s_k^2 &=\sum_{n\in\mathcal{C}_k}(y_n-m_k)^2\\ &=\sum_{n\in\mathcal{C}_k}(\mathbf{w}^T(\mathbf{x}_n-\mathbf{m}_k))^2\\ &=\sum_{n\in\mathcal{C}_k}\mathbf{w}^T(\mathbf{x}_n-\mathbf{m}_k)(\mathbf{x}_n-\mathbf{m}_k)^T\mathbf{w}\\ &=\mathbf{w}^T\left\{\sum_{n\in\mathcal{C}_k}(\mathbf{x}_n-\mathbf{m}_k)(\mathbf{x}_n-\mathbf{m}_k)^T\right\}\mathbf{w} \end{aligned} \]

其中,第 3 个等号的理由与前面推导一致。于是,

\[\begin{aligned} s^2_1+s^2_2 &=\mathbf{w}^T\left\{\sum_{n\in\mathcal{C}_1}(\mathbf{x}_n-\mathbf{m}_1)(\mathbf{x}_n-\mathbf{m}_1)^T+\sum_{n\in\mathcal{C}_2}(\mathbf{x}_n-\mathbf{m}_2)(\mathbf{x}_n-\mathbf{m}_2)^T\right\}\mathbf{w}\\ &=\mathbf{w}^T\mathbf{S}_\text{W}\mathbf{w}\quad(\mathbf{S}_\text{W}=\sum_{n\in\mathcal{C}_1}(\mathbf{x}_n-\mathbf{m}_1)(\mathbf{x}_n-\mathbf{m}_1)^T+\sum_{n\in\mathcal{C}_2}(\mathbf{x}_n-\mathbf{m}_2)(\mathbf{x}_n-\mathbf{m}_2)^T) \end{aligned} \]

综合两个结果得到

\[J(\mathbf{w})=\frac{(m_2-m_1)^2}{s_1^2+s_2^2}=\frac{\mathbf{w}^T\mathbf{S}_\text{B}\mathbf{w}}{\mathbf{w}^T\mathbf{S}_\text{W}\mathbf{w}}. \]


Exercise 4.6


Solution.
Fisher 判别法对应的最小二乘问题的损失函数可以写成

\[E=\frac{1}{2}\sum^N_{n=1}(\mathbf{w}^T\mathbf{x}_n+w_0-t_n)^2, \]

其中 \(t_n=\begin{cases} &\frac{N}{N_1},\quad n\in\mathcal{C}_1\\ &-\frac{N}{N_2},\quad n\in\mathcal{C}_2 \end{cases}\)
上式可以写成矩阵形式

\[E=\frac{1}{2}\|\mathbf{X}\mathbf{w}+w_0\mathbf{1}_N-\mathbf{t}\|^2_2 \]

\(w_0,\mathbf{w}\) 求偏导得

\[\begin{aligned} \frac{\partial E}{\partial w_0} &=\mathbf{1}_N^T(\mathbf{X}\mathbf{w}+w_0\mathbf{1}_N-\mathbf{t})\\ \frac{\partial E}{\partial \mathbf{w}}&=\mathbf{X}^T(\mathbf{X}\mathbf{w}+w_0\mathbf{1}_N-\mathbf{t})\\ \end{aligned} \]

\(\frac{\partial E}{\partial w_0}=0\)

\[\begin{aligned} w_0 &=\frac{\mathbf{1}_N^T\mathbf{t}-\mathbf{1}_N^T\mathbf{X}\mathbf{w}}{\mathbf{1}_N^T\mathbf{1}_N}\\ &=\frac{1}{N}((N_1\frac{N}{N_1}-N_2\frac{N}{N_2})-N\bar{x}^T\mathbf{w})\\ &=-\bar{x}^T\mathbf{w} \end{aligned} \]

\(\frac{\partial E}{\partial \mathbf{w}}=0\)

\[\begin{aligned} (\mathbf{X}^T\mathbf{X}-\mathbf{X}^T\mathbf{1}_N\bar{x}^T)\mathbf{w} &=\mathbf{X}^T\mathbf{t}\\ \iff (\mathbf{X}^T\mathbf{X}-N\bar{x}\bar{x}^T)\mathbf{w} &=\frac{N}{N_1}\sum_{n\in\mathcal{C}_1}\mathbf{x}_n-\frac{N}{N_2}\sum_{n\in\mathcal{C}_2}\mathbf{x}_n\\ \iff (\mathbf{X}^T\mathbf{X}-N\bar{x}\bar{x}^T)\mathbf{w} &=N(\mathbf{m}_1-\mathbf{m}_2)\\ \end{aligned} \]

下面转化 \(\mathbf{S}_\text{W}\) 的形式,与上式建立关联。

\[\begin{aligned} \mathbf{S}_\text{W} &=\sum_{n\in\mathcal{C}_1}(\mathbf{x}_n-\mathbf{m}_1)(\mathbf{x}_n-\mathbf{m}_1)^T+\sum_{n\in\mathcal{C}_2}(\mathbf{x}_n-\mathbf{m}_2)(\mathbf{x}_n-\mathbf{m}_2)^T\\ &=\sum_{k=1,2}\left\{\sum_{n\in\mathcal{C}_k}\mathbf{x}_n\mathbf{x}_n^T+N_k\mathbf{m}_k\mathbf{m}_k^T-2\mathbf{m}_k\left(\sum_{n\in\mathcal{C}_k}\mathbf{x}_n\right)^T\right\}\\ &=\sum^N_{n=1}\mathbf{x}_n\mathbf{x}_n^T+\sum_{k=1,2}-N_k\mathbf{m}_k\mathbf{m}_k^T\\ &=\mathbf{X}^T\mathbf{X}-N_1\mathbf{m}_1\mathbf{m}_1^T-N_2\mathbf{m}_2\mathbf{m}_2^T \end{aligned} \]

\(-N\bar{x}\bar{x}^T\) 做以下变形

\[\begin{aligned} -N\bar{x}\bar{x}^T &=-\frac{1}{N}(N_1\mathbf{m}_1+N_2\mathbf{m}_2)(N_1\mathbf{m}_1+N_2\mathbf{m}_2)^T\\ &=-\frac{1}{N}(N_1^2\mathbf{m}_1\mathbf{m}_1^T+N_2^2\mathbf{m}_2\mathbf{m}_2^T+2N_1N_2\mathbf{m}_1\mathbf{m}_2^T)\\ &=-\frac{1}{N}(N_1(N-N_2)\mathbf{m}_1\mathbf{m}_1^T+(N-N_1)N_2\mathbf{m}_2\mathbf{m}_2^T+2N_1N_2\mathbf{m}_1\mathbf{m}_2^T)\\ &=-N_1\mathbf{m}_1\mathbf{m}_1^T-N_2\mathbf{m}_2\mathbf{m}_2^T+\frac{N_1N_2}{N}(\mathbf{m}_1\mathbf{m}_1^T+\mathbf{m}_2\mathbf{m}_2^T-2\mathbf{m}_1\mathbf{m}_2^T)\\ &=-N_1\mathbf{m}_1\mathbf{m}_1^T-N_2\mathbf{m}_2\mathbf{m}_2^T+\frac{N_1N_2}{N}\mathbf{S}_\text{B} \end{aligned} \]

故有

\[\mathbf{X}^T\mathbf{X}-N\bar{x}\bar{x}^T=\mathbf{S}_\text{W}+\frac{N_1N_2}{N}\mathbf{S}_\text{B}. \]


Comment.
不清楚 \(t_n\) 的由来及 Fisher 判别法与最小二乘联系的直观理解。


Exercise 4.9


Solution.

\[\begin{aligned} E &=-\ln p(\Phi,\mathbf{T})\\ &=-\ln \prod p(\phi_n|\mathbf{t}_n)p(\mathbf{t}_n)\\ &=-\sum_k\sum_{n\in\mathcal{C}_k}\ln p(\phi_n|\mathcal{C}_k)+\ln p(\mathcal{C}_k)\\ &=-\sum_k N_k\ln \pi_k +\text{const.} \end{aligned} \]

记关于 \(\pi\) 的拉格朗日函数为

\[\mathcal{L}=-\sum_k N_k\ln \pi_k+\lambda\left(\sum_k\pi_k-1\right) \]

\[\frac{\partial \mathcal{L}}{\partial\pi}=-\left[\frac{N_1}{\pi_1},\dots,\frac{N_K}{\pi_K}\right]^T+\lambda\mathbf{1}_K \]

令梯度为零有 \(\frac{N_1}{\pi_1}=\lambda\),故 \(\pi_k=\lambda N_k\),两边对 \(k\) 求和有 \(\lambda=N^{-1}\),故 \(\pi_k=\frac{N_k}{N}\)


Comment.
上述结论与 \(p(\phi|\mathbf{t})\) 的具体形式无关。


Exercise 4.10


Solution.
由上题推导过程,

\[\begin{aligned} E &=-\sum_k\sum_{n\in\mathcal{C}_k}\ln p(\phi_n|\mathcal{C}_k)+\ln p(\mathcal{C}_k)\\ &=-\sum_k\sum_{n\in\mathcal{C}_k}\ln \mathcal{N}(\phi_n|\mu_k,\Sigma)+\ln p(\mathcal{C}_k)\\ &=\frac{N}{2}\ln|\Sigma|+\frac{1}{2}\sum_k\sum_{n\in\mathcal{C}_k}(\phi_n-\mu_k)^T\Sigma^{-1}(\phi_n-\mu_k)+\text{const.} \end{aligned} \]

\(\mu_k,\Sigma\) 求偏导得

\[\begin{aligned} \frac{\partial E}{\partial\mu_k} &=\sum_{n\in\mathcal{C}_k}\Sigma^{-1}(\phi_n-\mu_k)\\ \frac{\partial E}{\partial\Sigma} &=-\frac{N}{2}\Sigma^{-1}+\frac{1}{2}\sum_k\sum_{n\in\mathcal{C}_k}(\phi_n-\mu_k)(\phi_n-\mu_k)^T \end{aligned} \]

令梯度为零有

\[\begin{aligned} \hat{\mu}_k&=\frac{1}{N_k}\sum_{n\in\mathcal{C}_k}\phi_n\\ \widehat{\Sigma}&=\frac{1}{N}\sum_k\sum_{n\in\mathcal{C}_k}(\phi_n-\mu_k)(\phi_n-\mu_k)^T \end{aligned} \]

若记 \(\mathcal{C}_k\) 的样本协方差为 \(\frac{1}{N_k}\mathbf{S}_k=\sum_{n\in\mathcal{C}_k}(\phi_n-\mu_k)(\phi_n-\mu_k)^T\),则整个数据集的样本协方差可以写成类别协方差的加权和

\[\widehat{\Sigma}=\sum_k\frac{N_k}{N}\mathbf{S}_k, \]

上式衡量了类别不确定性对整体不确定性的贡献。


Exercise 4.11


Hint.
只需考虑单个样本,

\[\begin{aligned} \ln p(x,\mathcal{C}_k) &=\ln p(\mathcal{C}_k)+\ln p(x|\mathcal{C}_k)\\ &=\ln p(\mathcal{C}_k)+\sum^M_{m=1}\ln p(\phi_m|\mathcal{C}_k)\\ &=\ln p(\mathcal{C}_k)+\sum^M_{m=1}\sum^L_{l=1}\ln \mu_{k,ml}^{\phi_{ml}}\\ &=\ln p(\mathcal{C}_k)+\sum^M_{m=1}\sum^L_{l=1}{\phi_{ml}}\ln \mu_{k,ml}\\ \end{aligned} \]

其中,\(\mu_{k,ml}\in[0,1]\) 表示 \(\mathcal{C}_k\) 的特征分布的参数,\(\phi_{ml}\in\{0,1\}\) 表示样本特征的第 \((m,l)\) 个元素。


Exercise 4.13


Hint.

\[E(\mathbf{w})=-\mathbf{1}^T\ln p(\mathbf{t}|\mathbf{w})=-\mathbf{t}^T\ln \mathbf{y} -(1-\mathbf{t})^T\ln(1-\mathbf{y}), \]

其中 \(\mathbf{y}=\sigma(\mathbf{a}),\mathbf{a}=\Phi\mathbf{w}\)

\[\begin{aligned} \frac{\partial E(\mathbf{w})}{\partial \mathbf{w}} &=-\frac{\partial \mathbf{a}}{\partial \mathbf{w}}\frac{\partial \mathbf{y}}{\partial \mathbf{a}}\frac{\partial \mathbf{1}^T\ln p(\mathbf{t}|\mathbf{w})}{\partial \mathbf{y}}\\ &=-\Phi^T\text{diag}(\mathbf{y}\circ(1-\mathbf{y}))\left(\mathbf{t}\oslash\mathbf{y}+(1-\mathbf{t})\oslash(1-\mathbf{y})\right)\\ &=\Phi^T\text{diag}(\mathbf{y}\circ(1-\mathbf{y}))\left((\mathbf{y}-\mathbf{t})\oslash(\mathbf{y}\circ(1-\mathbf{y}))\right)\\ &=\Phi^T(\mathbf{y}-\mathbf{t}) \end{aligned} \]


Exercise 4.14


Hint.
由上题关于梯度的推导可知,梯度为零当且仅当 \(y_n=t_n\)。若数据线性可分,则有 \(t_n=\text{sign}(\mathbf{w}^T\phi_n)\)。欲使 \(\sigma(\mathbf{w}^T\phi_n)=\text{sign}(\mathbf{w}^T\phi_n)\),当且仅当 \(|\mathbf{w}^T\phi_n|=\infty\),由于 \(\|\phi_n\|<\infty\),故有 \(\|\mathbf{w}\|=\infty\)


Comment.
若数据不是线性可分的,或者训练数据线性可分,但是总体数据分布并非线性可分,为最大化似然,往往会导致 \(\|\mathbf{w}\|\) 过大,发生过拟合,因此,控制参数的范数是防止过拟合的一种手段。


Exercise 4.17


Hint.
Softmax 函数的定义为

\[\mathbf{y}=\frac{e^{\mathbf{a}}}{\mathbf{1}^Te^{\mathbf{a}}}, \]

其梯度为

\[\begin{aligned} \frac{\partial \mathbf{y}}{\partial \mathbf{a}^T} &=\frac{1}{\mathbf{1}^T e^{\mathbf{a}}}\text{diag}(e^{\mathbf{a}})-\frac{1}{(\mathbf{1}^T e^{\mathbf{a}})^2}e^{\mathbf{a}}(e^{\mathbf{a}})^T\\ &=\text{diag}(\mathbf{y})-\mathbf{y}\mathbf{y}^T \end{aligned} \]


Exercise 4.18


Solution.

\[E(\mathbf{W})=-\ln p(\mathbf{T}|\mathbf{W})=-\text{tr}(\mathbf{T}^T\ln \mathbf{Y})=-\sum \mathbf{t}^T\ln \mathbf{y}, \]

其中,\(\mathbf{y}=\text{softmax}(\mathbf{a}),\mathbf{a}=\mathbf{W}\phi\)。为简化记号,仅推导单样本损失函数的梯度,多个样本的只需求和。

\[\begin{aligned} -\frac{\partial \ln p(\mathbf{t}|\mathbf{W})}{\partial \text{vec}(\mathbf{W})^T} &=-\frac{\partial \ln p(\mathbf{t}|\mathbf{W})}{\partial \mathbf{y}^T}\frac{\partial \mathbf{y}}{\partial \mathbf{a}^T}\frac{\partial \mathbf{a}}{\partial \text{vec}(\mathbf{W})^T}\\ &=-\left(\frac{\mathbf{t}}{\mathbf{y}}\right)^T\left(\text{diag}(\mathbf{y})-\mathbf{y}\mathbf{y}^T\right)\frac{\partial \text{vec}(\mathbf{W}\phi)}{\partial \text{vec}(\mathbf{W})^T}\\ &=-\left(\frac{\mathbf{t}}{\mathbf{y}}\right)^T\left(\text{diag}(\mathbf{y})-\mathbf{y}\mathbf{y}^T\right)\frac{\partial (\phi^T\otimes I)\text{vec}(\mathbf{W})}{\partial \text{vec}(\mathbf{W})^T}\\ &=\left(\mathbf{y}-\mathbf{t}\right)^T(\phi^T\otimes I)\\ &=((\phi\otimes I)(\mathbf{y}-\mathbf{t}))^T\\ &=\text{vec}((\mathbf{y}-\mathbf{t})\phi^T)^T\\ \end{aligned} \]

\[-\frac{\partial \ln p(\mathbf{t}|\mathbf{W})}{\partial \mathbf{W}}=(\mathbf{y}-\mathbf{t})\phi^T \]

\[\begin{aligned} \frac{\partial E(\mathbf{W})}{\partial \mathbf{W}} &=\sum -\frac{\partial \ln p(\mathbf{t}|\mathbf{W})}{\partial \mathbf{W}}\\ &=\sum (\mathbf{y}-\mathbf{t})\phi^T\\ &=(\mathbf{Y}-\mathbf{T})^T\Phi \end{aligned} \]


Exercise 4.19


Solution.

\[E(\mathbf{w})=-\mathbf{1}^T\ln p(\mathbf{t}|\mathbf{w})=-\mathbf{t}^T\ln \mathbf{y} -(1-\mathbf{t})^T\ln(1-\mathbf{y}), \]

其中 \(\mathbf{y}=\text{Probit}(\mathbf{a}),\mathbf{a}=\Phi\mathbf{w}\),为了避免符号重用,这里用 \(\text{Probit}\) 指代 profit 函数。

\[\begin{aligned} \frac{\partial E(\mathbf{w})}{\partial \mathbf{w}} &=-\frac{\partial \mathbf{a}}{\partial \mathbf{w}}\frac{\partial \mathbf{y}}{\partial \mathbf{a}}\frac{\partial \mathbf{1}^T\ln p(\mathbf{t}|\mathbf{w})}{\partial \mathbf{y}}\\ &=-\Phi^T\text{diag}\left(\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\right)\left(\mathbf{t}\oslash\mathbf{y}+(1-\mathbf{t})\oslash(1-\mathbf{y})\right)\\ &=\Phi^T\text{diag}\left(\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\right)\left((\mathbf{y}-\mathbf{t})\oslash(\mathbf{y}\circ(1-\mathbf{y}))\right)\\ &=\frac{1}{\sqrt{2\pi}}\Phi^T\left(\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\circ(\mathbf{y}-\mathbf{t})\oslash(\mathbf{y}\circ(1-\mathbf{y}))\right)\\ \end{aligned} \]

下面计算二阶导,

\[\begin{aligned} \frac{\partial^2 E(\mathbf{w})}{\partial \mathbf{w}^2} &=\frac{\partial }{\partial \mathbf{w}^T}\frac{\partial E(\mathbf{w})}{\partial \mathbf{w}}\\ &=\frac{1}{\sqrt{2\pi}}\Phi^T\frac{\partial }{\partial \mathbf{w}^T}\left(\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\circ(\mathbf{y}-\mathbf{t})\oslash(\mathbf{y}\circ(1-\mathbf{y}))\right) \end{aligned} \]

注意到

\[\frac{\partial \mathbf{a}\circ\mathbf{b}}{\partial \mathbf{x}^T}=\text{diag}(\mathbf{a})\frac{\partial \mathbf{b}}{\partial \mathbf{x}^T}+\text{diag}(\mathbf{b})\frac{\partial \mathbf{a}}{\partial \mathbf{x}^T} \]

\[\begin{aligned} \frac{\partial^2 E(\mathbf{w})}{\partial \mathbf{w}^2} &=\frac{1}{\sqrt{2\pi}}\Phi^T\left[\text{diag}((\mathbf{y}-\mathbf{t})\oslash(\mathbf{y}\circ(1-\mathbf{y})))\frac{\partial \exp\left\{-\frac{\mathbf{a}^2}{2}\right\}}{\partial \mathbf{a}^T}\frac{\partial \mathbf{a}}{\partial \mathbf{w}^T}+\text{diag}\left(\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\right)\frac{\partial (\mathbf{y}-\mathbf{t})\oslash(\mathbf{y}\circ(1-\mathbf{y}))}{\partial \mathbf{y}^T}\frac{\partial \mathbf{y}}{\partial \mathbf{a}^T}\frac{\partial \mathbf{a}}{\partial \mathbf{w}^T}\right]\\ &=\frac{1}{\sqrt{2\pi}}\Phi^T\left[\text{diag}\left(\frac{-\mathbf{a}\circ(\mathbf{y}-\mathbf{t})}{\mathbf{y}\circ(1-\mathbf{y})}\circ\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\right)+\text{diag}\left(\frac{\mathbf{y}^2+\mathbf{t}-2\mathbf{t}\circ\mathbf{y}}{\mathbf{y}^2\circ(1-\mathbf{y})^2}\circ\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\circ\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}\right)\right]\Phi\\ &=\frac{1}{\sqrt{2\pi}}\Phi^T\text{diag}\left(\frac{e^{-\frac{\mathbf{a}^2}{2}}}{\mathbf{y}\circ(1-\mathbf{y})}\right)\text{diag}\left(\frac{\mathbf{y}^2+\mathbf{t}-2\mathbf{t}\circ\mathbf{y}}{\mathbf{y}\circ(1-\mathbf{y})}\circ\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{\mathbf{a}^2}{2}\right\}-\mathbf{a}\circ(\mathbf{y}-\mathbf{t})\right)\Phi\\ \end{aligned} \]

注意到二阶导依赖于参数 \(\mathbf{w}\),因此需要使用基于牛顿法的迭代最小二乘求解。


Exercise 4.21


Hint.

\[\begin{aligned} \Phi(a) &=\int^a_{-\infty}\mathcal{N}(\theta|0,1)\,\text{d}\theta\\ &=\frac{1}{2}+\int^a_{0}\mathcal{N}(\theta|0,1)\,\text{d}\theta\\ &=\frac{1}{2}+\int^a_{0}\frac{1}{\sqrt{2\pi}}e^{-\frac{\theta^2}{2}}\,\text{d}\theta\\ &=\frac{1}{2}\left\{1+\frac{1}{\sqrt{2}}\frac{2}{\sqrt{\pi}}\int^a_{0}e^{-\frac{\theta^2}{2}}\,\text{d}\theta\right\}\\ &=\frac{1}{2}\left\{1+\frac{1}{\sqrt{2}}\text{erf}(a)\right\}\\ \end{aligned} \]

第 2 个等号用到了高斯分布的对称性。


Exercise 4.22


Hint.

\[\begin{aligned} \ln p(\mathcal{D}) &=\ln \int p(\mathcal{D},\theta)\,\text{d}\theta\\ &\simeq \ln p(\mathcal{D},\theta_{\text{MAP}})+\ln \frac{(2\pi)^{M/2}}{|A|^{1/2}}\\ &=\ln p(\mathcal{D}|\theta_{\text{MAP}}) + \ln p(\theta_{\text{MAP}})+\frac{M}{2}\ln (2\pi) - \frac{1}{2}\ln |\mathbf{A}| \end{aligned} \]

其中第二个近似等号是由 Laplace 估计,因为 \(\theta_{\text{MAP}}\)\(\ln p(\mathcal{D},\theta_{\text{MAP}})\) 的极值点。


Exercise 4.23


Solution.
\(p(\theta)=\mathcal{N}(\theta|\mathbf{m},\mathbf{V}_0)\) 带入上题结果可得

\[\begin{aligned} \ln p(\mathcal{D}) &\simeq\ln p(\mathcal{D}|\theta_{\text{MAP}}) + \ln \mathcal{N}(\theta_{\text{MAP}}|\mathbf{m},\mathbf{V}_0)+\frac{M}{2}\ln (2\pi) - \frac{1}{2}\ln |\mathbf{A}|\\ &=\ln p(\mathcal{D}|\theta_{\text{MAP}}) - \frac{1}{2}(\theta_{\text{MAP}}-\mathbf{m})^T\mathbf{V}_0^{-1}(\theta_{\text{MAP}}-\mathbf{m}) - \frac{1}{2}\ln |\mathbf{A}| + \text{const.}\\ \end{aligned} \]

其中 \(\text{const}\) 表示与 \(\mathcal{D},\theta_{\text{MAP}}\) 无关常数, 假设先验足够平坦,即 \(\|\mathbf{V}_0\|\to\infty\),则

\[\begin{aligned} \|(\theta_{\text{MAP}}-\mathbf{m})^T\mathbf{V}_0^{-1}(\theta_{\text{MAP}}-\mathbf{m})\|\leq \|\theta_{\text{MAP}}-\mathbf{m}\|^2\|\mathbf{V}_0\|^{-1}\to 0. \end{aligned} \]

因此,先验项可以忽略。下面考虑第 3 项。首先

\[\begin{aligned} \mathbf{A} &=-\nabla^2\ln p(\mathcal{D}|\theta_{\text{MAP}})p(\theta_{\text{MAP}})\\ &=-\nabla^2\ln p(\mathcal{D}|\theta_{\text{MAP}}) - \nabla^2\ln p(\theta_{\text{MAP}})\\ &=\mathbf{H}+\mathbf{V}_0^{-1}\\ &\approx\mathbf{H} \end{aligned} \]

最后一个约等号是因为 \(\|\mathbf{V}_0^{-1}\|\to 0\)。下面考虑 \(|\mathbf{H}|\)

\[\begin{aligned} |\mathbf{H}| &=|\nabla^2\ln p(\mathcal{D}|\theta_{\text{MAP}})|\\ &=\left|\nabla^2\sum^N_{n=1}\ln p(x_n|\theta_{\text{MAP}})\right|\\ &\approx\left|N\nabla^2\mathbb{E}\left[\ln p(x|\theta_{\text{MAP}})\right]\right|\\ &=N^{M}\left|\nabla^2\mathbb{E}\left[\ln p(x|\theta_{\text{MAP}})\right]\right| \end{aligned} \]

\[\begin{aligned} \ln|\mathbf{H}| &=M\ln N + \ln \left|\nabla^2\mathbb{E}\left[\ln p(x|\theta_{\text{MAP}})\right]\right|\\ &\approx M\ln N \end{aligned} \]

其中最后一个约等号是因为 \(\frac{\ln \left|\nabla^2\mathbb{E}\left[\ln p(x|\theta_{\text{MAP}})\right]\right|}{\ln N}\to 0\,(N\to\infty)\)
综上,我们得到了一个近似的复杂度估计指标

\[\ln p(\mathcal{D})\simeq \ln p(\mathcal{D}|\theta_{\text{MAP}}) - \frac{M}{2}\ln N. \]

这个估计成立的前提有两个

  1. 平坦先验
  2. 样本数充分大

第一个假设的合理性在于,如果毫无专家知识,那么平坦先验是一个保守的好先验,第二个假设的合理性让人疑惑,因为当样本数充分大时,最大后验估计渐进趋近于极大似然估计,但是这个指标是面向贝叶斯回归提出来的,有矛盾的地方,可能实际派上用场的场景在于,样本相对于参数维度充分大。


Comment.
本题的近似太多,难以把握,参考答案完成。


Exercise 4.24


Hint.
\(p(a)=\int\delta(a-\phi^T\mathbf{w})\mathcal{N}(\mathbf{w}|\mathbf{w}_{\text{MAP}},\mathbf{S}_N)\,\text{d}\mathbf{w}\),易知 \(\delta(a-\phi^T\mathbf{w})=\underset{\sigma\to 0}{\lim}\,\mathcal{N}(a|\phi^T\mathbf{w},\sigma^2)\),由高斯线性模型的结论,\(p(a)=\underset{\sigma\to 0}{\lim}\,\mathcal{N}(a|\phi^T\mathbf{w}_{\text{MAP}},\sigma^2+\phi^T\mathbf{S}_N\phi)=\mathcal{N}(a|\phi^T\mathbf{w}_{\text{MAP}},\phi^T\mathbf{S}_N\phi)\)


Comment.
本题求解过程借用了 Dirac \(\delta\) 函数的极限定义,不知是否严谨。


Exercise 4.25


Hint.
\(\sigma'(a)=\sigma(a)\sigma(-a),\sigma'(0)=\frac{1}{4}\)
\(\Phi'(\lambda a)=\lambda \frac{1}{\sqrt{2\pi}}e^{-\frac{(\lambda a)^2}{2}},\Phi'(\lambda \cdot 0)=\frac{\lambda}{\sqrt{2\pi}}\)
\(\frac{\lambda}{\sqrt{2\pi}}=\frac{1}{4}\),得到 \(\lambda = \frac{\sqrt{2\pi}}{4}\)


Comment.
原文提到,用 \(\Phi(\lambda a)\) 近似 \(\sigma(a)\),是为了让中间积分有封闭表达式。


Exercise 4.26


Solution.

\[\begin{aligned} \int \Phi(\lambda a)\mathcal{N}(a|\mu,\sigma^2)\,\text{d}a &=\int \mathcal{N}(a|\mu,\sigma^2)\,\text{d}a\int^{\lambda a}_{-\infty}\mathcal{N}(\theta|0,1)\,\text{d}\theta\\ &=\int \mathcal{N}(z|0,1)\,\text{d}z\int^{\lambda (\mu+\sigma z)}_{-\infty}\mathcal{N}(\theta|0,1)\,\text{d}\theta\quad(a=\mu+\sigma z)\\ &=\int \mathcal{N}(z|0,1)\,\text{d}z\int^{\lambda (\mu+\sigma z)}_{-\infty}\mathcal{N}(\theta|0,1)\,\text{d}\theta\\ \end{aligned} \]

上面这个二重积分难以求解,考虑通过求导将其化为单变量积分,观察其形式。对 \(\mu\) 求导得到

\[\begin{aligned} \int \lambda\mathcal{N}(z|0,1)\mathcal{N}(\lambda (\mu+\sigma z)|0,1)\,\text{d}z &=\int \mathcal{N}(z|0,1)\mathcal{N}(\mu|\sigma z,\lambda^{-2})\,\text{d}z\\ &=\mathcal{N}(\mu|0,\lambda^{-2}+\sigma^2) \end{aligned} \]

其中,第 2 个等号是由高斯线性模型的结论。
因此

\[\begin{aligned} \int \Phi(\lambda a)\mathcal{N}(a|\mu,\sigma^2)\,\text{d}a &=\int^{\mu}_{-\infty} \mathcal{N}(\theta|0,\lambda^{-2}+\sigma^2)\,\text{d}(\theta+\sigma z)+C\\ &=\int^{\mu}_{-\infty} \mathcal{N}(\theta|0,\lambda^{-2}+\sigma^2)\,\text{d}\theta+C\\ &=\Phi\left(\frac{\mu}{\sqrt{\lambda^{-2}+\sigma^2}}\right)+C \end{aligned} \]

其中最后一个等号是把通用高斯分布转为标准正态分布。只需确定 \(C\)。令 \(\mu\to -\infty\),则有
\(\int \Phi(\lambda a)\mathcal{N}(a|\mu,\sigma^2)\,\text{d}a\to \int 0=0,\Phi\left(\frac{\mu}{\sqrt{\lambda^{-2}+\sigma^2}}\right)\to 0\),故 \(C=0\),即

\[\int \Phi(\lambda a)\mathcal{N}(a|\mu,\sigma^2)\,\text{d}a =\Phi\left(\frac{\mu}{\sqrt{\lambda^{-2}+\sigma^2}}\right). \]


posted @ 2021-03-14 11:36  Rotopia  阅读(843)  评论(0编辑  收藏  举报