主成分分析(PCA)特征选择算法详解
摘要:真实的训练数据总是存在各种各样的问题: 1、 比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余。 2、 拿到一个数学系的本科生期末考试成绩单,里面有三列,一列是对数学的兴趣程度,一列是复习时间,还有一列是考试成绩。我们知
阅读全文
posted @
2016-04-26 15:56
上品物语
阅读(28564)
推荐(2) 编辑
均值、方差、标准差及协方差、协方差矩阵详解
摘要:一、统计学基本概念:均值、方差、标准差 统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 方差: 标准差: 均值描述的是样本集合的中间点,它告诉我们的信息是有限的。 方差(variance)是在概率论和统计方差衡量随机变量或
阅读全文
posted @
2016-04-26 14:27
上品物语
阅读(50713)
推荐(3) 编辑
scikit-learn中的主成分分析(PCA)的使用
摘要:1、函数原型及参数说明 参数说明: n_components: 意义:PCA算法中所要保留的主成分个数n,也即保留下来的特征个数n 类型:int 或者 string,缺省时默认为None,所有成分被保留。 赋值为int,比如n_components=1,将把原始数据降到一个维度。 赋值为string
阅读全文
posted @
2016-04-26 09:50
上品物语
阅读(23012)
推荐(3) 编辑