摘要: import org.apache.flink.api.common.state.ReducingState; import org.apache.flink.api.common.state.ReducingStateDescriptor; import org.apache.flink.api. 阅读全文
posted @ 2020-11-25 10:21 宁君 阅读(1052) 评论(1) 推荐(0) 编辑
摘要: 1. 流与批处理的区别 流处理系统 流处理系统,其节点间数据传输的标准模型是:当一条数据被处理完成后,序列化到缓存中,然后立刻通过网络传输到下一个节点,由下一个节点继续处理。 批处理系统 批处理系统,其节点间数据传输的标准模型是:当一条数据被处理完成后,序列化到缓存中,并不会立刻通过网络传输到下一个 阅读全文
posted @ 2020-11-25 10:20 宁君 阅读(1380) 评论(0) 推荐(0) 编辑
摘要: 怎么确定一个Flink job的资源 Slots && parallelism 一个算子的parallelism 是5 ,那么这个算子就需要5个slot, 公式 :一个算子的parallelism 是n ,那么这个算子就需要5个n 通俗理解:几个并行度,就是有几个线程处理。 如何计算Slot 如果不 阅读全文
posted @ 2020-11-25 10:10 宁君 阅读(886) 评论(0) 推荐(0) 编辑
摘要: .keyBy(0) .window(TumblingProcessingTimeWindows.of(Time.days(1), Time.hours(-8))) .trigger(ContinuousProcessingTimeTrigger.of(Time.seconds(10))) .evic 阅读全文
posted @ 2020-11-25 09:51 宁君 阅读(1188) 评论(0) 推荐(0) 编辑
摘要: public static ParameterTool getParameterTool(String[] args){ try { return ParameterTool .fromPropertiesFile(PropertiesUtil.class.getResourceAsStream(" 阅读全文
posted @ 2020-11-25 09:49 宁君 阅读(1863) 评论(0) 推荐(0) 编辑
摘要: 1 尽量避免数据源的数据倾斜 比如数据源是Kafka 以Spark Stream通过DirectStream方式读取Kafka数据为例。由于Kafka的每一个Partition对应Spark的一个Task(Partition),所以Kafka内相关Topic的各Partition之间数据是否平衡,直 阅读全文
posted @ 2020-11-20 22:05 宁君 阅读(267) 评论(0) 推荐(0) 编辑
摘要: 数据倾斜只会发生在shuffle过程中。这里给大家罗列一些常用的并且可能会触发shuffle操作的算子:distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等。出现数据倾斜时,可能就是你的代码中使用了这些算子中 阅读全文
posted @ 2020-11-20 22:03 宁君 阅读(511) 评论(0) 推荐(0) 编辑
摘要: 什么是数据倾斜 对Spark/Hadoop这样的大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。 何谓数据倾斜?数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。 如果数据倾斜 阅读全文
posted @ 2020-11-20 22:02 宁君 阅读(106) 评论(0) 推荐(0) 编辑
摘要: 1 内存调整要点 Memory Tuning,Java对象会占用原始数据2~5倍甚至更多的空间。最好的检测对象内存消耗的办法就是创建RDD,然后放到cache里面去,然后在UI上面看storage的变化。使用-XX:+UseCompressedOops选项可以压缩指针(8字节变成4字节)。在调用co 阅读全文
posted @ 2020-11-19 11:26 宁君 阅读(492) 评论(0) 推荐(1) 编辑
摘要: 1 Spark Web UI Spark提供了一些基本的Web监控页面,对于日常监控十分有用。 通过http://master:4040(默认端口是4040,可以通过spark.ui.port修改)我们可以获得运行中的程序信息:(1)stages和tasks调度情况;(2)RDD大小及内存使用;(3 阅读全文
posted @ 2020-11-19 11:21 宁君 阅读(313) 评论(0) 推荐(0) 编辑