摘要:
Spark中的分类算法中总有分类阈值这个参数。 分类阈值用来调整预测的概率大小,算法会计算出每条预测数据属于哪个类别的概率p,将该条数据预测为p/t的最大值下表的类别(下标从0开始)。 类别标签有几个值,也就是几个类别,阈值需要有几个值。如果是二分类,则分类阈值就有两个值,如果是三分类,则分类阈值就 阅读全文
摘要:
错误原因: Python3中有个内置模块叫ctypes,它是Python3的外部函数库模块,它提供兼容C语言的数据类型,并通过它调用Linux系统下的共享库(Shared library),此模块需要使用CentOS7系统中外部函数库(Foreign function library)的开发链接库( 阅读全文
摘要:
本文将介绍spark读取多列txt文件后转成DataFrame的两种方法。 数据是Spark中自带的:sample_movielens_ratings.txt //形式如下面所示 0::2::3::1424380312 0::3::1::1424380312 0::5::2::1424380312 阅读全文
摘要:
用于基于某个标识符将字符串/列拆分/断开为多个,并返回列表: df_b = spark.createDataFrame([('1','ABC-07-DEF')],[ "ID","col1"]) df_b = df_b.withColumn('post_split', F.split(F.col('c 阅读全文
摘要:
在Spark中创建RDD的创建方式可以分为四种: ps:本文代码基于spark on zeppelin实现 1、从集合(内存)中创建RDD 从集合中创建RDD,Spark主要提供了两个方法:parallelize和makeRDD // 使用parallelize方法 val rdd1 = sc.pa 阅读全文
摘要:
具体步骤: 1、在顶部声明 Notebook 类型,必须在引入 pyecharts.charts 等模块前声明 from pyecharts.globals import CurrentConfig, NotebookType CurrentConfig.NOTEBOOK_TYPE = Notebo 阅读全文
摘要:
LSH:将向量进行哈希分桶,使得原语义上相似的文本大概率被哈希到同一个桶中,同个桶内的文本可以认为是大概率是相似的。 LSH:局部敏感哈希算法,是一种针对海量高维数据的快速最近邻查找算法,主要有如下用法: 全基因组的相关研究:生物学家经常使用 LSH 在基因组数据库中鉴定相似的基因表达。 大规模的图 阅读全文
摘要:
特征选择(Feature Selection)指的是在特征向量中选择出那些“优秀”的特征,组成新的、更“精简”的特征向量的过程。它在高维数据分析中十分常用,可以剔除掉“冗余”和“无关”的特征,提升学习器的性能。 一、VectorSlicer VectorSlicer 是一个转换器,它接受一个特征向量 阅读全文
摘要:
一、VectorAssembler VectorAssembler 是一个转换器,它将给定的列列表组合成单个向量列。 它对于将原始特征和不同特征转换器生成的特征组合成单个特征向量很有用,以便训练 ML 模型,如逻辑回归和决策树。 VectorAssembler 接受以下输入列类型:所有数字类型、布尔 阅读全文
摘要:
一、VectorIndexer VectorIndexer 帮助索引向量数据集中的分类特征。它既可以自动决定哪些特征是分类的,也可以将原始值转换为类别索引。具体来说,它执行以下操作: 获取 Vector 类型的输入列和参数 maxCategories; 根据不同值的数量决定哪些特征应该是分类的,其中 阅读全文