2016年4月26日
摘要: 真实的训练数据总是存在各种各样的问题: 1、 比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余。 2、 拿到一个数学系的本科生期末考试成绩单,里面有三列,一列是对数学的兴趣程度,一列是复习时间,还有一列是考试成绩。我们知 阅读全文
posted @ 2016-04-26 15:56 上品物语 阅读(28473) 评论(0) 推荐(2) 编辑
摘要: 一、统计学基本概念:均值、方差、标准差 统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 方差: 标准差: 均值描述的是样本集合的中间点,它告诉我们的信息是有限的。 方差(variance)是在概率论和统计方差衡量随机变量或 阅读全文
posted @ 2016-04-26 14:27 上品物语 阅读(50605) 评论(2) 推荐(3) 编辑
摘要: 1、函数原型及参数说明 参数说明: n_components: 意义:PCA算法中所要保留的主成分个数n,也即保留下来的特征个数n 类型:int 或者 string,缺省时默认为None,所有成分被保留。 赋值为int,比如n_components=1,将把原始数据降到一个维度。 赋值为string 阅读全文
posted @ 2016-04-26 09:50 上品物语 阅读(22976) 评论(0) 推荐(3) 编辑