晓枫的春天 - 博客园

2022年4月20日

摘要： 1、通过RDD队列创建DStream 测试过程中，可以通过使用ssc.queueStream(queueOfRDDs)来创建DStream，每一个推送到这个队列中的RDD，都会作为一个DStream处理。创建方式 def main(args: Array[String]): Unit = { va 阅读全文

posted @ 2022-04-20 08:01 晓枫的春天阅读(162) 评论(0) 推荐(0)

2022年4月16日

Spark Streaming 简介

摘要： 1、Spark Streaming 概述 1.1、离线&实时离线计算：计算开始前已知所有输入数据，输入数据不会发生变化，一般计算量级较大，计算时间较长，例如月初对上月整月数据或者一天凌晨对前一天数据进行分析计算。一般使用常用hive作为分析引擎。实时计算：输入数据是可以以序列化的方式一个个并行的阅读全文

posted @ 2022-04-16 16:57 晓枫的春天阅读(639) 评论(0) 推荐(0)

2022年4月15日

Spark Core 开发调优

摘要： 1、调优的意义在大数据分析计算领域，Spark已经成为主流的，非常受欢迎的计算引擎之一。Spark的功能涵盖了大数据领域的批处理、类SQL处理、实时计算、机器学习、图计算等多种不同类型的计算操作，应用范围广泛、前景一片大好，今天许多公司作为主流计算引擎使用，大多数Spark使用者，最初都是想提高计阅读全文

posted @ 2022-04-15 12:12 晓枫的春天阅读(80) 评论(0) 推荐(0)

2022年4月13日

Spark Core 练习

摘要： 1、数据准备本次练习的数据是采集电商网站的用户行为数据，主要包含用户的4种行为：搜索、点击、下单和支付数据格式数据采用_分割字段每一行表示用户的一个行为，所以每一行只能是四种行为中的一种。如果搜索关键字是null，表示这次不是搜索如果点击的品类id和产品id是-1表示这次不是点击下单行阅读全文

posted @ 2022-04-13 20:31 晓枫的春天阅读(134) 评论(0) 推荐(0)

2022年4月11日

Spark 广播变量&累加器

摘要： Spark 为了达到高并发，高吞吐数据处理能力除了封装RDD外，也封装了另外两个数据对象广播变量：分布式共享只读变量累加器：分布式共享只写变量 1、广播变量 1.1、广播变量存在的意义如果我们需要在分布式计算里面分发大对象，例如：集合，字典或者黑白名单等，这个都会有 Driver 端进行分发，阅读全文

posted @ 2022-04-11 07:09 晓枫的春天阅读(137) 评论(0) 推荐(0)

2022年4月8日

流程控制

摘要： 1、程序的流程控制说明 .在程序中，程序运行的流程控制决定程序是如何执行的，是我们必须掌握的，主要有三大流程控制语句。说明：Scala语言中控制结构和Java语言中的控制结构基本相同，在不考虑特殊应用场景的情况下，代码书写方式以及理解方式都没有太大的区别；顺序控制分支控制循环控制 2、顺序控制阅读全文

posted @ 2022-04-08 08:02 晓枫的春天阅读(153) 评论(0) 推荐(0)

2022年4月7日

Scala 运算符

摘要： 1、运算符简介运算符是一种特殊的符号，用以表示数据的运算、赋值和比较等。算术运算符赋值运算符比较运算符(关系运算符) 逻辑运算符位运算符 2、算术运算符 2.1、算术运算符介绍算术运算符(arithmetic)是对数值类型的变量进行运算的，在Scala程序中使用的非常多 2.2、算术运算阅读全文

posted @ 2022-04-07 08:12 晓枫的春天阅读(67) 评论(0) 推荐(0)

2022年4月6日

Kafka-Eagle监控

摘要： Kafka-Eagle框架可以监控Kafka集群的整体运行情况，在生产环境中经常使用。 1、MySQL环境准备 Kafka-Eagle的安装依赖于MySQL，MySQL主要用来存储可视化展示的数据。链接：https://pan.baidu.com/s/1fRHTwUgJciAT8g8IZhdrFQ 阅读全文

posted @ 2022-04-06 11:38 晓枫的春天阅读(492) 评论(0) 推荐(0)

2022年4月5日

Kafka 消费者（二）

摘要： 1、offset位移 1.1、offset的默认维护位置从0.9版本开始，consumer默认将offset保存在Kafka一个内置的topic中，该topic为__consumer_offsets，Kafka0.9版本之前，consumer默认将offset保存在Zookeeper中 __con 阅读全文

posted @ 2022-04-05 11:44 晓枫的春天阅读(233) 评论(0) 推荐(0)

2022年4月4日

Kafka 消费者（一）

摘要： 1、kafka 消费方式 pull（拉）模式：Kafka 消费方式消费速度：10m/s消费速度：20m/s消费速度：50m/s➢push（推）模式：consumer采用从broker中主动拉取数据。Kafka采用这种方式。 push（推）模式：Kafka没有采用这种方式，因为由broker决定消息发阅读全文

posted @ 2022-04-04 20:55 晓枫的春天阅读(444) 评论(0) 推荐(0)

滴水穿石不是靠力，而是因为不舍昼夜。

公告