上一页 1 ··· 27 28 29 30 31 32 33 34 35 ··· 45 下一页
摘要: 1、通过RDD队列创建DStream 测试过程中,可以通过使用ssc.queueStream(queueOfRDDs)来创建DStream,每一个推送到这个队列中的RDD,都会作为一个DStream处理。 创建方式 def main(args: Array[String]): Unit = { va 阅读全文
posted @ 2022-04-20 08:01 晓枫的春天 阅读(126) 评论(0) 推荐(0) 编辑
摘要: 1、Spark Streaming 概述 1.1、离线&实时 离线计算:计算开始前已知所有输入数据,输入数据不会发生变化,一般计算量级较大,计算时间较长,例如月初对上月整月数据或者一天凌晨对前一天数据进行分析计算。一般使用常用hive作为分析引擎。 实时计算:输入数据是可以以序列化的方式一个个并行的 阅读全文
posted @ 2022-04-16 16:57 晓枫的春天 阅读(545) 评论(0) 推荐(0) 编辑
摘要: 1、调优的意义 在大数据分析计算领域,Spark已经成为主流的,非常受欢迎的计算引擎之一。Spark的功能涵盖了大数据领域的批处理、类SQL处理、实时计算、机器学习、图计算等多种不同类型的计算操作,应用范围广泛、前景一片大好,今天许多公司作为主流计算引擎使用,大多数Spark使用者,最初都是想提高计 阅读全文
posted @ 2022-04-15 12:12 晓枫的春天 阅读(50) 评论(0) 推荐(0) 编辑
摘要: 1、数据准备 本次练习的数据是采集电商网站的用户行为数据,主要包含用户的4种行为:搜索、点击、下单和支付 数据格式 数据采用_分割字段 每一行表示用户的一个行为,所以每一行只能是四种行为中的一种。 如果搜索关键字是null,表示这次不是搜索 如果点击的品类id和产品id是-1表示这次不是点击 下单行 阅读全文
posted @ 2022-04-13 20:31 晓枫的春天 阅读(116) 评论(0) 推荐(0) 编辑
摘要: Spark 为了达到高并发,高吞吐数据处理能力除了封装RDD外,也封装了另外两个数据对象 广播变量:分布式共享只读变量 累加器:分布式共享只写变量 1、广播变量 1.1、广播变量存在的意义 如果我们需要在分布式计算里面分发大对象,例如:集合,字典或者黑白名单等,这个都会有 Driver 端进行分发, 阅读全文
posted @ 2022-04-11 07:09 晓枫的春天 阅读(108) 评论(0) 推荐(0) 编辑
摘要: 1、程序的流程控制说明 .在程序中,程序运行的流程控制决定程序是如何执行的,是我们必须掌握的,主要有三大流程控制语句。说明:Scala语言中控制结构和Java语言中的控制结构基本相同,在不考虑特殊应用场景的情况下,代码书写方式以及理解方式都没有太大的区别; 顺序控制 分支控制 循环控制 2、顺序控制 阅读全文
posted @ 2022-04-08 08:02 晓枫的春天 阅读(126) 评论(0) 推荐(0) 编辑
摘要: 1、运算符简介 运算符是一种特殊的符号,用以表示数据的运算、赋值和比较等。 算术运算符 赋值运算符 比较运算符(关系运算符) 逻辑运算符 位运算符 2、算术运算符 2.1、算术运算符介绍 算术运算符(arithmetic)是对数值类型的变量进行运算的,在Scala程序中使用的非常多 2.2、算术运算 阅读全文
posted @ 2022-04-07 08:12 晓枫的春天 阅读(52) 评论(0) 推荐(0) 编辑
摘要: Kafka-Eagle框架可以监控Kafka集群的整体运行情况,在生产环境中经常使用。 1、MySQL环境准备 Kafka-Eagle的安装依赖于MySQL,MySQL主要用来存储可视化展示的数据。 链接:https://pan.baidu.com/s/1fRHTwUgJciAT8g8IZhdrFQ 阅读全文
posted @ 2022-04-06 11:38 晓枫的春天 阅读(455) 评论(0) 推荐(0) 编辑
摘要: 1、offset位移 1.1、offset的默认维护位置 从0.9版本开始,consumer默认将offset保存在Kafka一个内置的topic中,该topic为__consumer_offsets,Kafka0.9版本之前,consumer默认将offset保存在Zookeeper中 __con 阅读全文
posted @ 2022-04-05 11:44 晓枫的春天 阅读(183) 评论(0) 推荐(0) 编辑
摘要: 1、kafka 消费方式 pull(拉)模式:Kafka 消费方式消费速度:10m/s消费速度:20m/s消费速度:50m/s➢push(推)模式:consumer采用从broker中主动拉取数据。Kafka采用这种方式。 push(推)模式:Kafka没有采用这种方式,因为由broker决定消息发 阅读全文
posted @ 2022-04-04 20:55 晓枫的春天 阅读(368) 评论(0) 推荐(0) 编辑
上一页 1 ··· 27 28 29 30 31 32 33 34 35 ··· 45 下一页