摘要:
1、概念 Imputer估计器使用缺失值所在列的平均值或中位数来完成数据集中的缺失值。输入列应为DoubleType或FloatType。当前,Imputer不支持分类特征,并且可能为包含分类特征的列创建不正确的值。 Imputer可以通过.setMissingValue(custom_value) 阅读全文
摘要:
1、概念 一种特性转换器,可将尺寸信息添加到矢量列的元数据中。 VectorAssembler需要为其输入列提供大小信息,并且在没有此元数据的情况下不能在流数据帧上使用。注意:VectorSizeHint修改`inputCol`以包括大小元数据,并且没有outputCol。 2、code packa 阅读全文