摘要: 1、概述 卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。 注意:卡方检验针对分类变量。 卡方检验来选择特征的背景 对于建立 阅读全文
posted @ 2020-01-18 16:52 我是属车的 阅读(784) 评论(0) 推荐(0) 编辑
摘要: 1、概念 VectorSlicer是一种转换器,它接受特征向量并输出带有原始特征子数组的新特征向量。这对于从向量列中提取特征很有用。 VectorSlicer接受具有指定索引的向量列,然后输出一个新的向量列,其值通过这些索引选择。索引有两种类型, 整数索引,代表向量setIndices()的索引。 阅读全文
posted @ 2020-01-18 14:58 我是属车的 阅读(919) 评论(0) 推荐(0) 编辑
摘要: 1、概念 Imputer估计器使用缺失值所在列的平均值或中位数来完成数据集中的缺失值。输入列应为DoubleType或FloatType。当前,Imputer不支持分类特征,并且可能为包含分类特征的列创建不正确的值。 Imputer可以通过.setMissingValue(custom_value) 阅读全文
posted @ 2020-01-18 14:07 我是属车的 阅读(776) 评论(0) 推荐(0) 编辑
摘要: 1、概念 一种特性转换器,可将尺寸信息添加到矢量列的元数据中。 VectorAssembler需要为其输入列提供大小信息,并且在没有此元数据的情况下不能在流数据帧上使用。注意:VectorSizeHint修改`inputCol`以包括大小元数据,并且没有outputCol。 2、code packa 阅读全文
posted @ 2020-01-18 10:18 我是属车的 阅读(684) 评论(0) 推荐(0) 编辑