随笔分类 - 流计算
包括SparkStreaming和Flink
摘要:Spark流式计算程序要想运行顺畅,也需要一些基本的调优,总结一下主要在两个方向: 每个批次的处理时间尽可能短。 收到数据后,尽可能地处理。 1.减少批处理的时间 一是增加数据接收的并发数量,尤其是当瓶颈发生在数据接收的时候。默认每个Input DStream都只会创建一个接收器,运行在某个节点上,
阅读全文
摘要:一.DStream的两类操作 DStream内部其实是RDD序列,所有的DStream操作最终都转换为RDD操作。通过分析源码,可以进一步窥探这种转换是如何进行的。 DStream有一些与RDD类似的基础属性: 依赖的其它DStream列表。 生成RDD的时间间隔。 一个名为compute的计算函数
阅读全文
摘要:一.代码实现 package cn.socket import org.apache.flink.streaming.api.scala._ // 数据类型异常,动态数据引入 // import org.apache.flink.api.scala._ // 数据类型异常,静态数据引入 /** *
阅读全文
摘要:一.Flink新特性 1.支持Scala2.12 2.对SQL功能进行完善 a.Streaming SQL新增Temporal Tables【时态表】 时态表:时态表记录了数据改变的历史状态,该表可以返回特定时间点的表的内容。 b.Streaming SQL支持模式匹配 模式匹配:Flink CEP
阅读全文
摘要:一.软件要求 Flink在所有类UNIX的环境【例如linux,mac os x和cygwin】上运行,并期望集群由一个 主节点和一个或多个工作节点组成。在开始设置系统之前,确保在每个节点上都安装了一下软件: 1.Java1.8.x或更高版本 2.ssh,必须运行sshd才能使用管理远程组件的Fli
阅读全文
摘要:一.DStreams【离散流】 DStreams或离散流是Spark Streaming提供的基本抽象。它表示连续的数据流,可以是从源接收的输入数据流,也可以是通过转换输入流生成的已处理数据流。在内部,DStream由一系列连续的RDD表示,这是Spark对不可变的分布式数据集的抽象。DStream
阅读全文
摘要:一.combineByKey算子简介 功能:实现分组自定义求和及计数。 特点:用于处理(key,value)类型的数据。 实现步骤: 1.对要处理的数据进行初始化,以及一些转化操作 2.检测key是否是首次处理,首次处理则添加,否则则进行分区内合并【根据自定义逻辑】 3.分组合并,返回结果 二.co
阅读全文