摘要: Kafka是一个分布式的Streaming处理平台,Kafka可以用于数据库中数据的导入导出,也可以用于实时流的处理,但是Kafka最核心的功能就是作为分布式的消息中间件。 Kafka集群是由多个Broker Server组成的,消息的发送者称为Producer,消息的消费者称为Consumer,t 阅读全文
posted @ 2019-09-08 21:39 花未全开*月未圆 阅读(1536) 评论(0) 推荐(0) 编辑
摘要: 将数据保存到MySQL中 import java.sql.DriverManager import org.apache.spark.storage.StorageLevel import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.{SparkConf, SparkContext} 阅读全文
posted @ 2019-09-08 20:45 花未全开*月未圆 阅读(166) 评论(0) 推荐(0) 编辑
摘要: 创建多个接收器 多个端口启动多个receiver在其他Executor,接收多个端口数据,在吞吐量上提高其性能。代码上: Receiver数据块的数量 数据一条一条接收,以一个块一个块的方式存储在内存中,多少条记录组成一个block块: batchInterval : 触发批处理的时间间隔 bloc 阅读全文
posted @ 2019-09-08 20:44 花未全开*月未圆 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 数据处理的并行度 1、BlockRDD的分区数 (1)通过Receiver接受数据的特点决定 (2)也可以自己通过repartition设置 2、ShuffleRDD的分区数 (1)默认的分区数为spark.default.parallelism(core的大小) (2)通过我们自己设置决定 val 阅读全文
posted @ 2019-09-08 20:43 花未全开*月未圆 阅读(255) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming 官网参考:http://spark.apache.org/docs/latest/streaming-programming-guide.html 一、Spark Streaming的原理 Spark Streaming应用也是Spark应用,Spark Stream 阅读全文
posted @ 2019-09-08 20:41 花未全开*月未圆 阅读(298) 评论(0) 推荐(0) 编辑
摘要: spark.streaming从不稳定到稳定状态,解决数据量接收数据时突然变大,使得无法及时处理数据,稳定性得到保证 开启方式: spark.streaming.backpressure.enabled = true Elastic Scaling(资源动态分配) Spark Batch Appli 阅读全文
posted @ 2019-09-08 20:39 花未全开*月未圆 阅读(201) 评论(0) 推荐(0) 编辑
摘要: 流计算语义(Semantics)的定义 每一条记录被流计算系统处理了几次 有三种语义: 1、At most once 一条记录要么被处理一次,要么没有被处理 2、At least once 一条记录可能被处理一次或者多次,可能会重复处理 3、Exactly once 一条记录只被处理一次 Zero 阅读全文
posted @ 2019-09-08 20:36 花未全开*月未圆 阅读(1236) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming的容错包括了三个地方的容错: 1、Executor失败容错:Executor的失败会重新启动一个新的Executor,这个是Spark自身的特性。如果Receiver所在的Executor失败了,那么Spark Streaming会在另外一个Executor上启动这个R 阅读全文
posted @ 2019-09-08 20:35 花未全开*月未圆 阅读(2491) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming应用也是Spark应用,Spark Streaming生成的DStream最终也是会转化成RDD,然后进行RDD的计算,所以Spark Streaming最终的计算是RDD的计算,那么Spark Streaming的原理当然也包含了Spark应用通用的原理。Spark 阅读全文
posted @ 2019-09-08 20:28 花未全开*月未圆 阅读(370) 评论(0) 推荐(0) 编辑
摘要: NetworkWordCount ☛ DStream(Discretized Stream 离散化流)特点 一个依赖父DStream的列表(依赖利于容错) 一个生成RDD的时间间隔(Batch Interavl) 一个生成RDD的函数(DStream 到 RDD 的转换) 1、Spark Strea 阅读全文
posted @ 2019-09-08 20:26 花未全开*月未圆 阅读(266) 评论(0) 推荐(0) 编辑