2013 年 5月 19 日随笔档案 - 刚开始

2013年5月19日

降维（二）----Laplacian Eigenmaps

摘要：前一篇文章中介绍了主成分分析。PCA的降维原则是最小化投影损失，或者是最大化保留投影后数据的方差。在谈到其缺点的时候，我们说这一目标并不一定有助于数据的分类，换句话说，原本在高维空间中属于两类的样本，降维后可能反而不可分了。这时一种经典的降维方法是LDA，其原理是使降维后的数据间类内距离尽可能小，类间距离尽可能大。使用LDA有个条件，就是要知道降维前数据分别属于哪一类，而且还要知道数据完整的高维信息。然而在Data Mining的很多应用下，我们是不知道数据的具体特征的（也就是高维信息），而仅仅知道数据与数据之间的相似程度。比如，在文本聚类的时候我们可以轻松知道两句话之间多么相似，但是却不. 阅读全文

posted @ 2013-05-19 21:21 刚开始阅读(889) 评论(0) 推荐(0) 编辑

降维（一）----说说主成分分析(PCA)的源头

摘要：主成分分析（PCA）在很多教程中做了介绍，但是为何通过协方差矩阵的特征值分解能够得到数据的主成分？协方差矩阵和特征值为何如此神奇，我却一直没弄清。今天终于把整个过程整理出来，方便自己学习，也和大家交流。提出背景以二维特征为例，两个特征之间可能存在线性关系的（例如这两个特征分别是运动的时速和秒速度），这样就造成了第二维信息是冗余的。PCA的目标是为了发现这种特征之间的线性关系，检测出这些线性关系，并且去除这线性关系。还是以二维特征为例，如下图。特征之间可能不存在完全的线性关系，可能只是强的正相关。如果把x-y坐标分解成u1-u2坐标，而u1轴线上反应了特征的主要变化（intrinsic），.. 阅读全文

posted @ 2013-05-19 14:50 刚开始阅读(1849) 评论(2) 推荐(0) 编辑

降维（二）----Laplacian Eigenmaps

降维（一）----说说主成分分析(PCA)的源头

导航