PRML第十四章习题答案
Chapter 14. Combining Models
更新日志(截至20210418)
- 20210418:添加习题简述和习题 14.2,14.6,14.9 的详解
- 20210127:首次提交,含习题 14.7 的详解
习题简述
- 14.1:多模型集成,每个模型的隐变量可以不同
- 14.2:若简单分类器间的误差独立,则集成模型的误差与模型的平均误差成正比,模型个数越多,集成模型误差越小
- 14.3:用凸函数性质(琴生不等式)证明集成多个模型可以减小误差
- 14.4:证明上述结论对任意凸函数成立
- 14.5:加性集成模型的有界性
- 14.6:AdaBoost 的集成参数优化
- 14.7:AdaBoost 的最优解
- 14.8:说明 AdaBoost 非概率算法
- 14.9:集成模型的残差回归
- 14.10:均方损失下最优预测值为算术平均
- 14.11:决策树实例计算
- 14.12-14.14:混合线性回归的 EM 算法优化
- 14.15:基于均方误差优化的混合线性回归模型在多峰数据上将失效
- 14.16:混合 softmax 回归及其 EM 算法优化
- 14.17:若混合分布的混合系数关于解释变量 \(x\) 与目标变量 \(t\) 耦合,则该双层模型不能划归为单层模型,即实现真正意义上的多层混合分布
习题详解
Exercise 14.2
Solution.
\[\begin{aligned}
E_{\text{COM}}
&=\underset{x}{\mathbb{E}}\left[\left\{\frac{1}{M}\sum^M_{m=1}\epsilon_m(x)\right\}^2\right]\\
&=\frac{1}{M^2}\underset{x}{\mathbb{E}}\left[\sum^M_{m=1}\epsilon^2_m(x)+2\sum_{i\not=j}\epsilon_i(x)\epsilon_j(x)\right]\\
&=\frac{1}{M^2}\left[\sum^M_{m=1}\underset{x}{\mathbb{E}}[\epsilon^2_m(x)]+2\sum_{i\not=j}\underset{x}{\mathbb{E}}[\epsilon_i(x)\epsilon_j(x)]\right]\\
&=\frac{1}{M^2}\sum^M_{m=1}\underset{x}{\mathbb{E}}[\epsilon^2_m(x)]\\
&=\frac{1}{M}E_{\text{AV}}
\end{aligned}
\]
Comment.
在独立性假设下,完成了“三个臭皮匠,赛过诸葛亮”的证明。但是实际当中很难保证弱分类器之间的独立性,因此误差减少的幅度没有这么显著,否则只需使用充分多的弱分类器即可将误差降至充分小。
Exercise 14.6
Solution.
由正文公式(14.23),损失函数可化为
\[E=\left(e^{\frac{1}{2}\alpha_m} - e^{-\frac{1}{2}\alpha_m}\right)
\sum^{N}_{n=0}w^{(m)}_n I(y_m(x_n)\neq t_n)
+e^{-\frac{1}{2}\alpha_m}\sum^{N}_{n=0}w^{(m)}_n
\]
求导得
\[\begin{aligned}
\frac{\partial E}{\partial \alpha_m}
&=\frac{1}{2}\left(e^{\frac{1}{2}\alpha_m} + e^{-\frac{1}{2}\alpha_m}\right)
\sum^{N}_{n=0}w^{(m)}_n I(y_m(x_n)\neq t_n)
-\frac{1}{2}e^{-\frac{1}{2}\alpha_m}\sum^{N}_{n=0}w^{(m)}_n
=0\\
&\iff
\left(e^{\alpha_m} + 1\right)
\sum^{N}_{n=0}w^{(m)}_n I(y_m(x_n)\neq t_n)
=\sum^{N}_{n=0}w^{(m)}_n
\end{aligned}
\]
定义
\[\epsilon_m = \frac{\sum^{N}_{n=0}w^{(m)}_n I(y_m(x_n)\neq t_n)}{\sum^{N}_{n=0}w^{(m)}_n}
\]
则 \(\left(e^{\alpha_m} + 1\right)^{-1}=\epsilon_m\),故 \(\alpha_m=\ln\frac{1-\epsilon_m}{\epsilon_m}\)。
Exercise 14.7
Hint.
\[\begin{aligned}
L
&=\underset{x,t}{\mathbb{E}}\left[\exp\left\{ -ty(x) \right\}\right]\\
&=\underset{x}{\mathbb{E}}\underset{t=1|x}{\mathbb{E}}\left[\exp\left\{ -y(x) \right\}\right]+
\underset{x}{\mathbb{E}}\underset{t=-1|x}{\mathbb{E}}\left[\exp\left\{ y(x) \right\}\right]
\end{aligned}
\]
令 \(\frac{\delta L}{\delta y}=0\),有 \(p(t=1|x)e^{-y(x)} = p(t=-1|x)e^{y(x)}\),则 \(y(x)=\frac{1}{2}\ln\frac{p(t=1|x)}{p(t=-1|x)}\)。
Exercise 14.9
Hint.
集成模型为 \(f_m(x)=\frac{1}{2}\sum^m_{l=1}\alpha_l y_l(x)\),损失函数为 \(E=\sum(t_n-f_m(x_n))^2=\sum(t_n-f_{m-1}(x_n)-\frac{1}{2}\alpha_m y_m(x))^2\),故加性模型是在拟合残差。