打赏

Spark Mllib里如何将数值特征字段用StandardScaler进行标准化(图文详解)

 

 

  不多说,直接上干货!

 

 

  首先,要明白为什么有时候,数值特征字段需要进行标准化?

  答:因为,当我们若用回归分析算法时,必须将数值特征字段进行标准化,这是因为数值特征字段单位不同,数字差异很大,所以无法彼此比较,这时,就需要使用标准化,使得数值特征字段具有共同的标准

 

 

   加入数据标准化   withMean = false

 

 

 

 

  具体,见

Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第14章 使用逻辑回归二元分类算法来预测分类StumbleUpon数据集

 

posted @ 2017-08-30 21:48  大数据和AI躺过的坑  阅读(940)  评论(0编辑  收藏  举报