摘要:
1、概述 MinMaxScaler转换Vector行的数据集,将每个要素重新缩放到特定范围(通常为[0,1])。它带有参数: 最小值:默认为0.0。转换后的下限,由所有功能共享。 最大值:默认为1.0。转换后的上限,由所有功能共享。 MinMaxScaler计算数据集的摘要统计信息并生成MinMax 阅读全文
摘要:
1、概念 z−score规范化,又叫零均值规范化 将某个特征向量(由所有样本某一个特征组成的向量)进行标准化,使数据均值为0,方差为1。Spark中可以选择是带或者不带均值和方差。StandardScaler转换Vector行的数据集,将每个要素归一化以具有单位标准差(和/或)零均值。它带有参数: 阅读全文
摘要:
1、概念 将某个特征向量(由所有样本某一个特征组成的向量)计算其p-范数,然后对该每个元素除以p-范数。将原始特征Normalizer以后可以使得机器学习算法有更好的表现。 当p取1,2,∞的时候分别是以下几种最简单的情形: 1-范数(L1):║x║1=│x1│+│x2│+…+│xn│ 2-范数(L 阅读全文
摘要:
1、概念 Interaction是一个Transformer。它使用向量或double列,并生成单个向量列,其中包含每个输入列的一个值的所有组合的乘积。例如,如果您有两个向量类型列,每个列有3个维度作为输入列,那么您将获得一个9维向量作为输出列。 2、code package com.home.sp 阅读全文
摘要:
package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.DCT import org.apache.spark.ml.linalg.Vectors import or 阅读全文
摘要:
1、概念 特征升维 2、code package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.PolynomialExpansion import org.apache. 阅读全文