随笔分类 -  流计算

包括SparkStreaming和Flink
摘要:Spark流式计算程序要想运行顺畅,也需要一些基本的调优,总结一下主要在两个方向: 每个批次的处理时间尽可能短。 收到数据后,尽可能地处理。 1.减少批处理的时间 一是增加数据接收的并发数量,尤其是当瓶颈发生在数据接收的时候。默认每个Input DStream都只会创建一个接收器,运行在某个节点上, 阅读全文
posted @ 2020-07-30 19:02 云山之巅 阅读(581) 评论(0) 推荐(0) 编辑
摘要:一.DStream的两类操作 DStream内部其实是RDD序列,所有的DStream操作最终都转换为RDD操作。通过分析源码,可以进一步窥探这种转换是如何进行的。 DStream有一些与RDD类似的基础属性: 依赖的其它DStream列表。 生成RDD的时间间隔。 一个名为compute的计算函数 阅读全文
posted @ 2020-07-20 11:49 云山之巅 阅读(527) 评论(0) 推荐(0) 编辑
摘要:一.代码实现 package cn.socket import org.apache.flink.streaming.api.scala._ // 数据类型异常,动态数据引入 // import org.apache.flink.api.scala._ // 数据类型异常,静态数据引入 /** * 阅读全文
posted @ 2020-03-23 18:47 云山之巅 阅读(1388) 评论(0) 推荐(0) 编辑
摘要:一.Flink新特性 1.支持Scala2.12 2.对SQL功能进行完善 a.Streaming SQL新增Temporal Tables【时态表】 时态表:时态表记录了数据改变的历史状态,该表可以返回特定时间点的表的内容。 b.Streaming SQL支持模式匹配 模式匹配:Flink CEP 阅读全文
posted @ 2020-02-29 17:58 云山之巅 阅读(3910) 评论(0) 推荐(1) 编辑
摘要:一.软件要求 Flink在所有类UNIX的环境【例如linux,mac os x和cygwin】上运行,并期望集群由一个 主节点和一个或多个工作节点组成。在开始设置系统之前,确保在每个节点上都安装了一下软件: 1.Java1.8.x或更高版本 2.ssh,必须运行sshd才能使用管理远程组件的Fli 阅读全文
posted @ 2020-02-05 11:11 云山之巅 阅读(2030) 评论(0) 推荐(0) 编辑
摘要:一.DStreams【离散流】 DStreams或离散流是Spark Streaming提供的基本抽象。它表示连续的数据流,可以是从源接收的输入数据流,也可以是通过转换输入流生成的已处理数据流。在内部,DStream由一系列连续的RDD表示,这是Spark对不可变的分布式数据集的抽象。DStream 阅读全文
posted @ 2020-02-01 10:44 云山之巅 阅读(520) 评论(0) 推荐(0) 编辑
摘要:一.combineByKey算子简介 功能:实现分组自定义求和及计数。 特点:用于处理(key,value)类型的数据。 实现步骤: 1.对要处理的数据进行初始化,以及一些转化操作 2.检测key是否是首次处理,首次处理则添加,否则则进行分区内合并【根据自定义逻辑】 3.分组合并,返回结果 二.co 阅读全文
posted @ 2019-09-07 17:21 云山之巅 阅读(341) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示