spark - 随笔分类 - 我是属车的

Spark CrossValidator

摘要：1、概述 ML中的一项重要任务是模型选择，或使用数据为给定任务找到最佳模型或参数。这也称为tuning。可以针对单个估算器（例如LogisticRegression）进行调整，也可以针对包括多个算法，特征化和其他步骤的整个管道进行调整。用户可以一次调整整个管道，而不必分别调整管道中的每个元素。 M 阅读全文

posted @ 2020-03-06 15:48 我是属车的阅读(1275) 评论(0) 推荐(0)

Spark Random Forest classifier 随机森林分类

摘要：1、概述随机森林是决策树的集合。随机森林是用于分类和回归的最成功的机器学习模型之一。他们结合了许多决策树，以减少过度拟合的风险。像决策树一样，随机森林处理分类特征，扩展到多类分类设置，不需要特征缩放，并且能够捕获非线性和特征交互。 spark.mllib支持使用连续和分类功能对二元和多类分类以及进阅读全文

posted @ 2020-03-04 11:51 我是属车的阅读(2412) 评论(0) 推荐(0)

Spark DecisionTreeClassifier 决策树分类

摘要：1、概述决策树及树集（算法）是用于机器学习任务的分类和回归的流行方法。决策树被广泛使用，因为它们易于解释，处理分类特征，扩展到多类分类设置，不需要特征缩放，并且能够捕获非线性和特征交互。树集分类算法（例如随机森林和boosting）在分类和回归任务中表现最佳。 spark.ml实现使用连续和分类特阅读全文

posted @ 2020-03-03 17:21 我是属车的阅读(1587) 评论(0) 推荐(0)

Spark Locality Sensitive Hashing (LSH)局部哈希敏感

摘要：1、概念 LSH是一类重要的散列技术，通常用于聚类，近似最近邻搜索和大型数据集的异常检测。 LSH的一般思想是使用一个函数族（“ LSH族”）将数据点散列（hash）到存储桶中，以便彼此靠近的数据点很有可能位于同一存储桶中，而彼此相距很远的情况很可能在不同的存储桶中。在度量空间（M，d）中，M是集阅读全文

posted @ 2020-01-20 17:07 我是属车的阅读(3834) 评论(0) 推荐(0)

Spark ChiSqSelector 卡方选择器

摘要：1、概述卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，如果卡方值越大，二者偏差程度越大；反之，二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。注意：卡方检验针对分类变量。卡方检验来选择特征的背景对于建立阅读全文

posted @ 2020-01-18 16:52 我是属车的阅读(824) 评论(0) 推荐(0)

Spark VectorSlice 向量切片

摘要：1、概念 VectorSlicer是一种转换器，它接受特征向量并输出带有原始特征子数组的新特征向量。这对于从向量列中提取特征很有用。 VectorSlicer接受具有指定索引的向量列，然后输出一个新的向量列，其值通过这些索引选择。索引有两种类型，整数索引，代表向量setIndices（）的索引。阅读全文

posted @ 2020-01-18 14:58 我是属车的阅读(936) 评论(0) 推荐(0)

Spark Imputer 归因估算器补全缺失值

摘要：1、概念 Imputer估计器使用缺失值所在列的平均值或中位数来完成数据集中的缺失值。输入列应为DoubleType或FloatType。当前，Imputer不支持分类特征，并且可能为包含分类特征的列创建不正确的值。 Imputer可以通过.setMissingValue（custom_value）阅读全文

posted @ 2020-01-18 14:07 我是属车的阅读(804) 评论(0) 推荐(0)

Spark VectorSizeHint

摘要：1、概念一种特性转换器，可将尺寸信息添加到矢量列的元数据中。 VectorAssembler需要为其输入列提供大小信息，并且在没有此元数据的情况下不能在流数据帧上使用。注意：VectorSizeHint修改`inputCol`以包括大小元数据，并且没有outputCol。 2、code packa 阅读全文

posted @ 2020-01-18 10:18 我是属车的阅读(706) 评论(0) 推荐(0)

Spark VectorAssembler 向量装配转换器

摘要：package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.VectorAssembler import org.apache.spark.ml.linalg.Vecto 阅读全文

posted @ 2020-01-17 17:11 我是属车的阅读(1222) 评论(0) 推荐(0)

Spark SQLTransformer SQL转换

摘要：package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.SQLTransformer import org.apache.spark.sql.SparkSession 阅读全文

posted @ 2020-01-17 16:58 我是属车的阅读(946) 评论(0) 推荐(0)

Spark ElementwiseProduct 乘积转换

摘要：1、概念 ElementwiseProduct使用逐元素乘法将每个输入向量乘以提供的“权重”向量。换句话说，它通过标量乘法器缩放数据集的每一列。这表示输入向量v和变换向量w之间的Hadamard乘积，以产生结果向量。 2、code package com.home.spark.ml import o 阅读全文

posted @ 2020-01-17 16:22 我是属车的阅读(821) 评论(0) 推荐(0)

Spark QuantileDiscretizer 分位数离散器

摘要：1、概念接收具有连续特征的列，并输出具有合并分类特征的列。按分位数，对给出的数据列进行离散化分箱处理。和Bucketizer（分箱处理）一样也是：将连续数值特征转换为离散类别特征。实际上Class QuantileDiscretizer extends Bucketizer 参数1：不同的是这里阅读全文

posted @ 2020-01-17 15:35 我是属车的阅读(4845) 评论(0) 推荐(0)

Spark Bucketizer 特征离散化、桶化

摘要：1、概念将连续数值转换为离散类别特征。比如需求把人分为50以上和50以下太不精准了，应该分为20岁以下，20-30岁，30-40岁，36-50岁，50以上，那么就得用到数值离散化的处理方法了。离散化就是把特征进行适当的离散处理，比如上面所说的年龄是个连续的特征，但是我把它分为不同的年龄阶段就是把阅读全文

posted @ 2020-01-17 14:23 我是属车的阅读(1955) 评论(0) 推荐(0)

Spark Binarizer 连续型数据处理之二值化

摘要：1、概念假设有个需求，我得根据年龄来进行物品推荐，把50以上的人分为老年，50以下分为非老年人，那么我们根据二值化可以很简单的把50以上的定为1，50以下的定为0。这样就方便我们后续的推荐了。Binarizer就是根据阈值进行二值化,大于阈值的为1.0,小于等于阈值的为0.0 2、code pac 阅读全文

posted @ 2020-01-17 11:29 我是属车的阅读(371) 评论(0) 推荐(0)

Spark MaxAbsScaler 绝对值最大标准化

摘要：package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.MaxAbsScaler import org.apache.spark.ml.linalg.Vectors 阅读全文

posted @ 2020-01-17 11:18 我是属车的阅读(1117) 评论(0) 推荐(0)

Spark MinMaxScaler 归一化之最小最大值标准化

摘要：1、概述 MinMaxScaler转换Vector行的数据集，将每个要素重新缩放到特定范围（通常为[0，1]）。它带有参数：最小值：默认为0.0。转换后的下限，由所有功能共享。最大值：默认为1.0。转换后的上限，由所有功能共享。 MinMaxScaler计算数据集的摘要统计信息并生成MinMax 阅读全文

posted @ 2020-01-16 17:25 我是属车的阅读(3157) 评论(0) 推荐(0)

Spark StandardScaler 特征标准化

摘要：1、概念 z−score规范化，又叫零均值规范化将某个特征向量（由所有样本某一个特征组成的向量）进行标准化，使数据均值为0，方差为1。Spark中可以选择是带或者不带均值和方差。StandardScaler转换Vector行的数据集，将每个要素归一化以具有单位标准差(和/或)零均值。它带有参数：阅读全文

posted @ 2020-01-16 16:52 我是属车的阅读(2045) 评论(0) 推荐(0)

spark Normalizer 规范化归一化

摘要：1、概念将某个特征向量（由所有样本某一个特征组成的向量）计算其p-范数，然后对该每个元素除以p-范数。将原始特征Normalizer以后可以使得机器学习算法有更好的表现。当p取1，2，∞的时候分别是以下几种最简单的情形： 1-范数(L1)：║x║1=│x1│+│x2│+…+│xn│ 2-范数(L 阅读全文

posted @ 2020-01-16 15:42 我是属车的阅读(1133) 评论(0) 推荐(0)

Spark Interaction（特征交互-笛卡尔转换）

摘要：1、概念 Interaction是一个Transformer。它使用向量或double列，并生成单个向量列，其中包含每个输入列的一个值的所有组合的乘积。例如，如果您有两个向量类型列，每个列有3个维度作为输入列，那么您将获得一个9维向量作为输出列。 2、code package com.home.sp 阅读全文

posted @ 2020-01-16 14:16 我是属车的阅读(584) 评论(0) 推荐(0)

Spark DCT 离散余弦变换

摘要：package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.DCT import org.apache.spark.ml.linalg.Vectors import or 阅读全文

posted @ 2020-01-16 11:13 我是属车的阅读(433) 评论(0) 推荐(0)

我是属车的

随笔分类 - spark

公告