流计算 - 随笔分类 - 云山之巅

Spark Streaming之性能调优

摘要：Spark流式计算程序要想运行顺畅，也需要一些基本的调优，总结一下主要在两个方向：每个批次的处理时间尽可能短。收到数据后，尽可能地处理。 1.减少批处理的时间一是增加数据接收的并发数量，尤其是当瓶颈发生在数据接收的时候。默认每个Input DStream都只会创建一个接收器，运行在某个节点上，阅读全文

posted @ 2020-07-30 19:02 云山之巅阅读(611) 评论(0) 推荐(0)

深入理解Spark Streaming

摘要：一.DStream的两类操作 DStream内部其实是RDD序列，所有的DStream操作最终都转换为RDD操作。通过分析源码，可以进一步窥探这种转换是如何进行的。 DStream有一些与RDD类似的基础属性：依赖的其它DStream列表。生成RDD的时间间隔。一个名为compute的计算函数阅读全文

posted @ 2020-07-20 11:49 云山之巅阅读(569) 评论(0) 推荐(0)

Flink Socket WordCount常见异常及解决方案

摘要：一.代码实现 package cn.socket import org.apache.flink.streaming.api.scala._ // 数据类型异常，动态数据引入 // import org.apache.flink.api.scala._ // 数据类型异常，静态数据引入 /** * 阅读全文

posted @ 2020-03-23 18:47 云山之巅阅读(1421) 评论(0) 推荐(0)

Flink&Blink【编程模型、核心概念、SQL代码实战】

摘要：一.Flink新特性 1.支持Scala2.12 2.对SQL功能进行完善 a.Streaming SQL新增Temporal Tables【时态表】时态表：时态表记录了数据改变的历史状态，该表可以返回特定时间点的表的内容。 b.Streaming SQL支持模式匹配模式匹配：Flink CEP 阅读全文

posted @ 2020-02-29 17:58 云山之巅阅读(3974) 评论(0) 推荐(1)

Flink集群模式部署及案例执行

摘要：一.软件要求 Flink在所有类UNIX的环境【例如linux，mac os x和cygwin】上运行，并期望集群由一个主节点和一个或多个工作节点组成。在开始设置系统之前，确保在每个节点上都安装了一下软件： 1.Java1.8.x或更高版本 2.ssh，必须运行sshd才能使用管理远程组件的Fli 阅读全文

posted @ 2020-02-05 11:11 云山之巅阅读(2119) 评论(0) 推荐(0)

Spark Streaming流计算核心概念

摘要：一.DStreams【离散流】 DStreams或离散流是Spark Streaming提供的基本抽象。它表示连续的数据流，可以是从源接收的输入数据流，也可以是通过转换输入流生成的已处理数据流。在内部，DStream由一系列连续的RDD表示，这是Spark对不可变的分布式数据集的抽象。DStream 阅读全文

posted @ 2020-02-01 10:44 云山之巅阅读(552) 评论(0) 推荐(0)

SparkStreaming高级算子应用【combineByKey、transform，checkpoint】

摘要：一.combineByKey算子简介功能：实现分组自定义求和及计数。特点：用于处理(key,value)类型的数据。实现步骤： 1.对要处理的数据进行初始化，以及一些转化操作 2.检测key是否是首次处理，首次处理则添加，否则则进行分区内合并【根据自定义逻辑】 3.分组合并，返回结果二.co 阅读全文

posted @ 2019-09-07 17:21 云山之巅阅读(351) 评论(0) 推荐(0)

云山之巅

------自学是你超越他人使自己变的重要的一种能力！

随笔分类 - 流计算

公告