01 2020 档案

摘要:1、概念 LSH是一类重要的散列技术,通常用于聚类,近似最近邻搜索和大型数据集的异常检测。 LSH的一般思想是使用一个函数族(“ LSH族”)将数据点散列(hash)到存储桶中,以便彼此靠近的数据点很有可能位于同一存储桶中,而彼此相距很远的情况很可能在不同的存储桶中。 在度量空间(M,d)中,M是集 阅读全文
posted @ 2020-01-20 17:07 我是属车的 阅读(3721) 评论(0) 推荐(0) 编辑
摘要:1、概述 卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。 注意:卡方检验针对分类变量。 卡方检验来选择特征的背景 对于建立 阅读全文
posted @ 2020-01-18 16:52 我是属车的 阅读(791) 评论(0) 推荐(0) 编辑
摘要:1、概念 VectorSlicer是一种转换器,它接受特征向量并输出带有原始特征子数组的新特征向量。这对于从向量列中提取特征很有用。 VectorSlicer接受具有指定索引的向量列,然后输出一个新的向量列,其值通过这些索引选择。索引有两种类型, 整数索引,代表向量setIndices()的索引。 阅读全文
posted @ 2020-01-18 14:58 我是属车的 阅读(926) 评论(0) 推荐(0) 编辑
摘要:1、概念 Imputer估计器使用缺失值所在列的平均值或中位数来完成数据集中的缺失值。输入列应为DoubleType或FloatType。当前,Imputer不支持分类特征,并且可能为包含分类特征的列创建不正确的值。 Imputer可以通过.setMissingValue(custom_value) 阅读全文
posted @ 2020-01-18 14:07 我是属车的 阅读(781) 评论(0) 推荐(0) 编辑
摘要:1、概念 一种特性转换器,可将尺寸信息添加到矢量列的元数据中。 VectorAssembler需要为其输入列提供大小信息,并且在没有此元数据的情况下不能在流数据帧上使用。注意:VectorSizeHint修改`inputCol`以包括大小元数据,并且没有outputCol。 2、code packa 阅读全文
posted @ 2020-01-18 10:18 我是属车的 阅读(686) 评论(0) 推荐(0) 编辑
摘要:package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.VectorAssembler import org.apache.spark.ml.linalg.Vecto 阅读全文
posted @ 2020-01-17 17:11 我是属车的 阅读(1201) 评论(0) 推荐(0) 编辑
摘要:package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.SQLTransformer import org.apache.spark.sql.SparkSession 阅读全文
posted @ 2020-01-17 16:58 我是属车的 阅读(912) 评论(0) 推荐(0) 编辑
摘要:1、概念 ElementwiseProduct使用逐元素乘法将每个输入向量乘以提供的“权重”向量。换句话说,它通过标量乘法器缩放数据集的每一列。这表示输入向量v和变换向量w之间的Hadamard乘积,以产生结果向量。 2、code package com.home.spark.ml import o 阅读全文
posted @ 2020-01-17 16:22 我是属车的 阅读(796) 评论(0) 推荐(0) 编辑
摘要:1、概念 接收具有连续特征的列,并输出具有合并分类特征的列。按分位数,对给出的数据列进行离散化分箱处理。 和Bucketizer(分箱处理)一样也是:将连续数值特征转换为离散类别特征。实际上Class QuantileDiscretizer extends Bucketizer 参数1:不同的是这里 阅读全文
posted @ 2020-01-17 15:35 我是属车的 阅读(4766) 评论(0) 推荐(0) 编辑
摘要:1、概念 将连续数值转换为离散类别特征。 比如需求把人分为50以上和50以下太不精准了,应该分为20岁以下,20-30岁,30-40岁,36-50岁,50以上,那么就得用到数值离散化的处理方法了。离散化就是把特征进行适当的离散处理,比如上面所说的年龄是个连续的特征,但是我把它分为不同的年龄阶段就是把 阅读全文
posted @ 2020-01-17 14:23 我是属车的 阅读(1906) 评论(0) 推荐(0) 编辑
摘要:1、概念 假设有个需求,我得根据年龄来进行物品推荐,把50以上的人分为老年,50以下分为非老年人,那么我们根据二值化可以很简单的把50以上的定为1,50以下的定为0。这样就方便我们后续的推荐了。Binarizer就是根据阈值进行二值化,大于阈值的为1.0,小于等于阈值的为0.0 2、code pac 阅读全文
posted @ 2020-01-17 11:29 我是属车的 阅读(355) 评论(0) 推荐(0) 编辑
摘要:package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.MaxAbsScaler import org.apache.spark.ml.linalg.Vectors 阅读全文
posted @ 2020-01-17 11:18 我是属车的 阅读(1074) 评论(0) 推荐(0) 编辑
摘要:1、概述 MinMaxScaler转换Vector行的数据集,将每个要素重新缩放到特定范围(通常为[0,1])。它带有参数: 最小值:默认为0.0。转换后的下限,由所有功能共享。 最大值:默认为1.0。转换后的上限,由所有功能共享。 MinMaxScaler计算数据集的摘要统计信息并生成MinMax 阅读全文
posted @ 2020-01-16 17:25 我是属车的 阅读(3110) 评论(0) 推荐(0) 编辑
摘要:1、概念 z−score规范化,又叫零均值规范化 将某个特征向量(由所有样本某一个特征组成的向量)进行标准化,使数据均值为0,方差为1。Spark中可以选择是带或者不带均值和方差。StandardScaler转换Vector行的数据集,将每个要素归一化以具有单位标准差(和/或)零均值。它带有参数: 阅读全文
posted @ 2020-01-16 16:52 我是属车的 阅读(1959) 评论(0) 推荐(0) 编辑
摘要:1、概念 将某个特征向量(由所有样本某一个特征组成的向量)计算其p-范数,然后对该每个元素除以p-范数。将原始特征Normalizer以后可以使得机器学习算法有更好的表现。 当p取1,2,∞的时候分别是以下几种最简单的情形: 1-范数(L1):║x║1=│x1│+│x2│+…+│xn│ 2-范数(L 阅读全文
posted @ 2020-01-16 15:42 我是属车的 阅读(1098) 评论(0) 推荐(0) 编辑
摘要:1、概念 Interaction是一个Transformer。它使用向量或double列,并生成单个向量列,其中包含每个输入列的一个值的所有组合的乘积。例如,如果您有两个向量类型列,每个列有3个维度作为输入列,那么您将获得一个9维向量作为输出列。 2、code package com.home.sp 阅读全文
posted @ 2020-01-16 14:16 我是属车的 阅读(571) 评论(0) 推荐(0) 编辑
摘要:package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.DCT import org.apache.spark.ml.linalg.Vectors import or 阅读全文
posted @ 2020-01-16 11:13 我是属车的 阅读(423) 评论(0) 推荐(0) 编辑
摘要:1、概念 特征升维 2、code package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.PolynomialExpansion import org.apache. 阅读全文
posted @ 2020-01-16 10:24 我是属车的 阅读(495) 评论(0) 推荐(0) 编辑
摘要:1、概念 主成分分析(PCA) 特征抽取通常用于提高计算效率,降低维度灾难。 主成分分析(PCA)是一种用于探索高维数据结构的技术。PCA可以把具有相关性的高维变量合成线性无关的低维变量。新的低维数据集尽可能保留原始数据的变量。 当数据集不同维度上的方差分布不均匀的时候,PCA最有用。(如果是一个球 阅读全文
posted @ 2020-01-15 17:05 我是属车的 阅读(657) 评论(0) 推荐(0) 编辑
摘要:1、概念 n-gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为n的滑动窗口操作,形成了长度是n 的字节片段序列。 每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间, 阅读全文
posted @ 2020-01-15 15:25 我是属车的 阅读(681) 评论(0) 推荐(0) 编辑
摘要:1、概念 独热编码(One-Hot Encoding) * 将表示为标签索引的分类特征映射到二进制向量,该向量最多具有一个单一的单值,该单值表示所有特征值集合中特定特征值的存在。 * 此编码允许期望连续特征(例如逻辑回归)的算法使用分类特征。 * 对于字符串类型的输入数据,通常首先使用StringI 阅读全文
posted @ 2020-01-14 15:21 我是属车的 阅读(3416) 评论(0) 推荐(0) 编辑
摘要:1、概念 逻辑回归是预测分类相应的常用方法。广义线性回归的一个特例是预测结果的概率。在spark.ml逻辑回归中,可以使用二项逻辑回归来预测二元结果,或者可以使用多项逻辑回归来预测多类结果。使用该family参数在这两种算法之间选择,或者保持不设置(缺省auto),Spark将推断出正确的变量。 通 阅读全文
posted @ 2020-01-10 16:52 我是属车的 阅读(3710) 评论(0) 推荐(0) 编辑
摘要:1、StringIndexer 标签索引器,它将标签的字符串列映射到标签索引的ML列。 如果输入列为数字,则将其强制转换为字符串并为字符串值编制索引。 索引在[0,numLabels)中。 索引构建的顺序为标签的频率,优先编码频率较大的标签,所以出现频率最高的标签为0号 默认情况下,按标签频率排序, 阅读全文
posted @ 2020-01-10 11:30 我是属车的 阅读(1119) 评论(0) 推荐(0) 编辑
摘要:1、概念 提高决策树或随机森林等ML方法的分类效果。VectorIndexer是对数据集特征向量中的类别(离散值)特征(index categorical features categorical features )进行编号。它能够自动判断那些特征是离散值型的特征,并对他们进行编号,具体做法是通过 阅读全文
posted @ 2020-01-10 11:04 我是属车的 阅读(787) 评论(0) 推荐(0) 编辑
摘要:1、概念 * CountVectorizer和CountVectorizerModel旨在帮助将文本文档的集合转换为令牌计数的向量。 * 当先验字典不可用时,CountVectorizer可用作估计器以提取词汇表并生成CountVectorizerModel。 * 该模型为词汇表上的文档生成稀疏向量 阅读全文
posted @ 2020-01-09 17:01 我是属车的 阅读(570) 评论(0) 推荐(0) 编辑
摘要:1、概念 * word2vector 是google开源的一个生成词向量的工具, * 以语言模型为优化目标,迭代更新训练文本中的词向量,最终收敛获得词向量。 * 词向量可以作为文本分析中重要的特征,在分类问题、标注问题等场景都有着重要的应用价值。 * 由于是用向量表示,而且用较好的训练算法得到的词向 阅读全文
posted @ 2020-01-09 16:49 我是属车的 阅读(651) 评论(0) 推荐(0) 编辑
摘要:1、概念 TF-IDF (Term frequency-inverse document frequency)TF-IDF(HashingTF and IDF)“词频-逆向文件频率”(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。词语由t表示 阅读全文
posted @ 2020-01-09 16:27 我是属车的 阅读(1544) 评论(0) 推荐(0) 编辑
摘要:1、概念 稀疏向量和密集向量都是向量的表示方法 密集向量和稀疏向量的区别: 密集向量的值就是一个普通的Double数组 而稀疏向量由两个并列的 数组indices和values组成 例如:向量(1.0,0.0,1.0,3.0)用密集格式表示为[1.0,0.0,1.0,3.0],用稀疏格式表示为(4, 阅读全文
posted @ 2020-01-06 17:23 我是属车的 阅读(885) 评论(0) 推荐(0) 编辑
摘要:1、业务目标,通过训练模型给待处理数据打上标签 给定训练样本中对包含hello的字符串文本打上标签1,否则打上0. 期望,通过训练模型用机器学习的方式对待测试数据做同样的操作。 2、训练样本sample.txt 三列(id,文本,标签),hello文本标签为1 0,why hello world J 阅读全文
posted @ 2020-01-03 16:03 我是属车的 阅读(784) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示