摘要: 1.Flink 概述 1.1 流处理技术的演变 在开源世界里,Apache Storm 项目是流处理的先锋。Storm 最早由 Nathan Marz 和创业公司 BackType 的一个团队开发,后来才被 Apache 基金会接纳。Storm 提供 了低延迟的流处理,但是它为实时性付出了一些代价: 阅读全文
posted @ 2019-07-12 21:07 LXL_1 阅读(967) 评论(0) 推荐(0) 编辑
摘要: Spark Troubleshooting 3.1 故障排除一:控制 reduce 端缓冲大小以避免 OOM 在 Shuffle 过程,reduce 端 task 并不是等到 map 端 task 将其数据全部写入磁盘 后再去拉取,而是 map 端写一点数据,reduce 端 task 就会拉取一小 阅读全文
posted @ 2019-07-12 04:10 LXL_1 阅读(198) 评论(0) 推荐(0) 编辑
摘要: Spark 数据倾斜 Spark 中的数据倾斜问题主要指 shuffle 过程中出现的数据倾斜问题,是由于不 同的 key 对应的数据量不同导致的不同 task 所处理的数据量不同的问题。 例如,reduce 点一共要处理 100 万条数据,第一个和第二个 task 分别被分配到 了 1 万条数据, 阅读全文
posted @ 2019-07-12 02:18 LXL_1 阅读(230) 评论(0) 推荐(0) 编辑