神经网络与深度学习[邱锡鹏] 第九章、第十章习题解析

9-1

一般认为，有用信息具有较大的方差，噪声有较小的方差。
主成分分析，选择方差最大的方向投影，并去掉多余的维度（特征），达到降噪的目的。

具有多重共线性的数据不适合使用主成分分析。举例来说，对于一个二分类问题，正例样本为(1,1,1,1,1),负例样本为(0,0,0,0,0)。

两个公式的导数如下。

有如下的函数图像。

k邻近，阿西吧

由定理10.1可知，为了得到更好的继承效果，需要每个模型具备一定的差异性，并且随着数量的增多，其错误率会下降，并趋近于0.

集成学习可以避免过拟合，避免过拟合的前提是：各基模型的差异需要尽可能的大。可以采用Bagging类方法或者Booting类方法。

1.自训练算法和EM算法都属于半监督学习算法，需要有一些有标注数据训练模型；
2.两者都属于迭代优化策略。
3.自训练没有机制保证每次加入训练集的样本的伪标签是正确的，而EM算法可以通过不断地EM迭代，最大化边际似然函数。

posted @ 2021-11-05 21:02 whyaza 阅读(767) 评论(1) 编辑收藏举报

刷新页面返回顶部