摘要: 如果觉得不错,请给博主点个赞呗!!! 谢谢 如果觉得不错,请给博主点个赞呗!!! 谢谢 如果觉得不错,请给博主点个赞呗!!! 谢谢 1、概览 Spark Streaming 是核心 Spark API 的扩展,它支持对实时数据流进行可伸缩的、高吞吐量的、容错的流处理。数据可以从 Kafka、 Kin 阅读全文
posted @ 2021-05-11 17:38 我の女王 阅读(261) 评论(0) 推荐(0) 编辑
摘要: 什么是再平衡 所谓的再平衡,指的是在kafka consumer所订阅的topic发生变化时发生的一种分区重分配机制。一般有三种情况会触发再平衡: consumer group中的新增或删除某个consumer,导致其所消费的分区需要分配到组内其他的consumer上; consumer订阅的top 阅读全文
posted @ 2020-03-03 19:44 我の女王 阅读(3752) 评论(0) 推荐(0) 编辑
摘要: 需求:对数据进行分类问题的处理 开发步骤: 1 准备SparkSession的环境 2 准备大数据的数据 3 读取数据并进行解析 4 数据的基本信息的查看 5 特征工程 6 准备算法 7 模型训练 8 模型预测 9 模型校验 10 模型保存 11 新数据预测 代码模板: 阅读全文
posted @ 2020-03-02 17:47 我の女王 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 决策树的概念 ​ 决策树是一个类似于流程图的树结构:其中,每个内部结点表示一个特征或属性,而每个树叶结点代表一个分类。树的最顶层是根结点。使用决策树分类时就是将实例分配到叶节点的类中。该叶节点所属的类就是该节点的分类。(通过下图理解) 构建决策树三要素 特征选择 基于规则的选择 信息熵 一条信息的信 阅读全文
posted @ 2020-03-02 10:43 我の女王 阅读(732) 评论(0) 推荐(0) 编辑
摘要: 卡方验证(ChiSqSelector): 卡方检验 假设检验 首先假设特征和标签列是相关的,如果计算出来的结果差距很大,拒绝原假设,说明特征和标签列是独立的,这列特征不去选择。 变量进行 独立性检验 , 如果独立性高,那么表示两者没太大关系,特征可以舍弃 ; 如果独立性小,两者相关性高,则说 明该特 阅读全文
posted @ 2020-03-01 11:22 我の女王 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 1、类别值属性的数值化 1.1 StringIndexer StringIndexer将标签的字符串列编码为标签索引列。索引[0, numLabels)按 标签频率 排序,因此最常用的标签获得索引0。如果输入列是数字,我们将其转换为字符串并索引字符串值。 1.2 IndexToString 对称的S 阅读全文
posted @ 2020-02-29 16:06 我の女王 阅读(486) 评论(0) 推荐(0) 编辑
摘要: 在Apriori算法原理总结中,我们对Apriori算法的原理做了总结。作为一个挖掘频繁项集的算法,Apriori算法需要多次扫描数据,I/O是很大的瓶颈。为了解决这个问题,FP Tree算法(也称FP Growth算法)采用了一些技巧,无论多少数据,只需要扫描两次数据集,因此提高了算法运行的效率。 阅读全文
posted @ 2020-01-03 13:16 我の女王 阅读(354) 评论(0) 推荐(0) 编辑
摘要: 1、首先关闭虚拟机点击编辑虚拟机设置 2、点击想要扩容的硬盘点击扩容 3、增加容量 输入想增加的容量,因为我本身是30G写到35G是加了5G不是增加30G.(此处为了演示只增加5G) 4、开启虚拟机 查看虚拟机当前磁盘挂载情况 fdisk -l 5、选择磁盘 fdisk /dev/sda 6、查看磁 阅读全文
posted @ 2019-11-28 16:52 我の女王 阅读(1561) 评论(1) 推荐(1) 编辑
摘要: 一、简介 scala是一门基于JVM的多范式编程语言 二、语法 1、语法格式 1.1 var val 定义变量 val/var 变量标识:变量类型 = 初始值 eg: var/val name:Sting = “Tom” 1.2 使用类型推断来定义变量 Scala的语法要比Java简洁, 我们可以使 阅读全文
posted @ 2019-10-28 22:02 我の女王 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 1、创建和使用数据库(DDL: 数据定义语言. 主要指的是操作数据库, 操作数据表, 增加列.) 1) 查看当前数据库 show databases; 2) 创建数据库 create database 数据库名称; 3)使用和切换数据库 use 数据库名称 4)删除数据库 drop database 阅读全文
posted @ 2019-10-25 21:44 我の女王 阅读(134) 评论(0) 推荐(0) 编辑