摘要: 1.1 降维的必要性 1. 多重共线性--预测变量之间相互关联。多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯。 2. 高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%。 3. 过多的变量会妨碍查找规律的建立。 4. 仅在变量层面上分析可能会 阅读全文
posted @ 2018-01-11 11:20 dy9776 阅读(255) 评论(0) 推荐(0) 编辑
摘要: PCA(Principal Component Analysis)不仅仅是对高维数据进行降维,更重要的是经过降维去除了噪声,发现了数据中的模式。 PCA把原先的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的m个特征互不相关。从旧特征到新特征的映射捕 阅读全文
posted @ 2018-01-11 11:19 dy9776 阅读(613) 评论(0) 推荐(0) 编辑