2020 年 12月 29 日随笔档案 - 宁君

2020年12月29日

摘要： 4个角度轻松理解 Flink中的Watermark Watermark 理解了,但是想讲给别人听, 总是讲不清楚,这篇让我理解了原文: 当我们第一次接触 Flink 时往往会对其中的 watermark 感到困惑。但实际上 watermark 并不复杂。在本文中我们将通过一个简单的例子来说明为什么阅读全文

posted @ 2020-12-29 19:12 宁君阅读(530) 评论(0) 推荐(0) 编辑

Flink中Checkpoint和Savepoint 的 3 个不同点

摘要： Flink中Checkpoint和Savepoint 的 3 个不同点 Savepoint和Checkpoint分别是什么? Savepoint 是用来为整个流处理应用在某个“时间点”（point-in-time）进行快照生成的功能。该快照包含了数据源读取到的偏移量（offset），输入源的位置信息阅读全文

posted @ 2020-12-29 19:01 宁君阅读(718) 评论(0) 推荐(0) 编辑

Flink在开发中的7点建议

摘要： Flink在开发中的7点建议 1. 使用DataStreamAPI还是Table API/SQL? 在 DataStream API 和 Table API/SQL 的选择上，如果有强烈的需求控制状态和每条状态到来的处理，则需要使用 DataStream API；如果是简单的数据提取和关系代数的运阅读全文

posted @ 2020-12-29 18:59 宁君阅读(640) 评论(0) 推荐(0) 编辑

Flink调优法则

摘要： Flink调优法则一. 性能定位口诀分析 1. 看背压通常最后一个背压高的subTask的下游就是job的明显瓶颈之一 2. 看checkoint时长 checkpoint的时长在一定程度上可以影响job的整体吞吐 3. 查看关键指标通过延迟与吞吐指标可以对任务的性能进行精准的判断 4. 资阅读全文

posted @ 2020-12-29 18:56 宁君阅读(1257) 评论(0) 推荐(0) 编辑

Spark性能调优之资源分配

摘要： Spark性能调优之资源分配 1. 分配哪些资源？ spark任务可以分配的资源主要包括 executor、cpu per executor、memory per executor、driver memory 2. 在哪里分配这些资源？在我们在生产环境中，在提交spark作业时，用的spark-s 阅读全文

posted @ 2020-12-29 18:54 宁君阅读(579) 评论(0) 推荐(0) 编辑

Spark Shuffle调优之调节map端内存缓冲与reduce端内存占比

摘要： Spark Shuffle调优之调节map端内存缓冲与reduce端内存占比调优原理默认情况下shuffle的map task输出到磁盘文件的时候，统一都会先写入每个task自己关联的一个内存缓冲区。这个缓冲区大小，默认是32kb。每一次当内存缓冲区满溢之后才会进行spill操作(溢写操作)溢阅读全文

posted @ 2020-12-29 18:53 宁君阅读(298) 评论(0) 推荐(0) 编辑

从程序员到项目经理

摘要：推荐系列文章: 从程序员到项目经理阅读全文

posted @ 2020-12-29 18:16 宁君阅读(82) 评论(0) 推荐(0) 编辑

宁君

公告