摘要: 4个角度轻松理解 Flink中的Watermark Watermark 理解了,但是想讲给别人听, 总是讲不清楚,这篇让我理解了 原文: 当我们第一次接触 Flink 时往往会对其中的 watermark 感到困惑。但实际上 watermark 并不复杂。在本文中我们将通过一个简单的例子来说明为什么 阅读全文
posted @ 2020-12-29 19:12 宁君 阅读(530) 评论(0) 推荐(0) 编辑
摘要: Flink中Checkpoint和Savepoint 的 3 个不同点 Savepoint和Checkpoint分别是什么? Savepoint 是用来为整个流处理应用在某个“时间点”(point-in-time)进行快照生成的功能。该快照包含了数据源读取到的偏移量(offset),输入源的位置信息 阅读全文
posted @ 2020-12-29 19:01 宁君 阅读(718) 评论(0) 推荐(0) 编辑
摘要: Flink在开发中的7点建议 1. 使用DataStreamAPI还是Table API/SQL? 在 DataStream API 和 Table API/SQL 的选择上,如果有强烈的需求控制状态和每条状态到来的处理,则需要使用 DataStream API; 如果是简单的数据提取和关系代数的运 阅读全文
posted @ 2020-12-29 18:59 宁君 阅读(640) 评论(0) 推荐(0) 编辑
摘要: Flink调优法则 一. 性能定位 口诀分析 1. 看背压 通常最后一个背压高的subTask的下游就是job的明显瓶颈之一 2. 看checkoint时长 checkpoint的时长在一定程度上可以影响job的整体吞吐 3. 查看关键指标 通过延迟与吞吐指标可以对任务的性能进行精准的判断 4. 资 阅读全文
posted @ 2020-12-29 18:56 宁君 阅读(1257) 评论(0) 推荐(0) 编辑
摘要: Spark性能调优之资源分配 1. 分配哪些资源? spark任务可以分配的资源主要包括 executor、cpu per executor、memory per executor、driver memory 2. 在哪里分配这些资源? 在我们在生产环境中,在提交spark作业时,用的spark-s 阅读全文
posted @ 2020-12-29 18:54 宁君 阅读(579) 评论(0) 推荐(0) 编辑
摘要: Spark Shuffle调优之调节map端内存缓冲与reduce端内存占比 调优原理 默认情况下shuffle的map task输出到磁盘文件的时候,统一都会先写入每个task自己关联的一个内存缓冲区。这个缓冲区大小,默认是32kb。 每一次当内存缓冲区满溢之后才会进行spill操作(溢写操作)溢 阅读全文
posted @ 2020-12-29 18:53 宁君 阅读(298) 评论(0) 推荐(0) 编辑
摘要: 推荐系列文章: 从程序员到项目经理 阅读全文
posted @ 2020-12-29 18:16 宁君 阅读(82) 评论(0) 推荐(0) 编辑