特征工程（3）-数据预处理归一化

既然讲到归一化和前面的标准化需要对比一下，首先二者处理的维度是不一样的，假设我们要处理的矩阵是 m*n 大小，m 个样本，n 维特征

标准化处理的方式是以列为单位，也就是处理的对象是

$m*kk=1\dots\dots..nm*kk=1\dots\dots..n$

归一化处理的方式却是以行为单位，处理的对象如下：

$k*nk=1\dots\dots..mk*nk=1\dots\dots..m$

归一化处理对样本的特征向量处理之后使其变为单位向量，单位向量可以用于点积运算或者计算样本之间相似度

L2 归一化的计算公式如下所示：

$y=x\sqrt\sumni=0x2y=x\sumi=0nx2$

L1 归一化的计算公式如下所示

$y=x\sumni=0∥x∥y=x\sumi=0n‖x‖$

sklearn 代码

实验结果如下

spark 代码如下

from pyspark.ml.feature import Normalizer
dataFrame = sqlContext.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")
# p=2 则表示是 l2 归一化
normalizer = Normalizer(inputCol="features", outputCol="normFeatures", p=1.0)
l1NormData = normalizer.transform(dataFrame)
l1NormData.show()

posted on 2018-05-08 18:57 yuluoxingkong 阅读(443) 评论(0) 编辑收藏举报

刷新页面返回顶部

公告