摘要:
4. 实例 将3维空间上的球体样本点投影到二维上,W1相比W2能够获得更好的分离效果。 PCA与LDA的降维对比: PCA选择样本点投影具有最大方差的方向,LDA选择分类性能最好的方向。 LDA既然叫做线性判别分析,应该具有一定的预测功能,比如新来一个样例x,如何确定其类别? 拿二值分来来说,我们可以将其投影到直线上,得到y,然后看看y是否在超过某个阈值y0,超过是某一类,否则是另一类。而怎么寻找这个y0呢? 看 根据中心极限定理,独立同分布的随机变量和符合高斯分布,然后利用极大似然估计求 然后用决策理论里的公式来寻找最佳的y0,详情请参阅PRML。 这是一种可行但比较繁琐的选取方法,可以看第 阅读全文
2011年4月21日
摘要:
1. 问题 之前我们讨论的PCA、ICA也好,对样本数据来言,可以是没有类别标签y的。回想我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维,但PCA没有将类别标签考虑进去,属于无监督的。 比如回到上次提出的文档中含有“learn”和“study”的问题,使用PCA后,也许可以将这两个特征合并为一个,降了维度。但假设我们的类别标签y是判断这篇文章的topic是不是有关学习方面的。那么这两个特征对y几乎没什么影响,完全可以去除。 再举一个例子,假设我们对一张100*100像素的图片做人脸识别,每个像素是一个特征,那么会有10000个特征,而对应的类别标 阅读全文