上一页 1 2 3 4 5 6 7 8 ··· 38 下一页
摘要: 5.Flink DataStream API 5.1 Flink 运行模型 以上为 Flink 的运行模型,Flink 的程序主要由三部分构成,分别为 Source、 Transformation、Sink。DataSource 主要负责数据的读取,Transformation 主要负责对 属于的转 阅读全文
posted @ 2019-07-13 02:33 LXL_1 阅读(748) 评论(0) 推荐(0) 编辑
摘要: 4.Flink 运行架构 4.1 任务提交流程 Flink 任务提交后,Client 向 HDFS 上传 Flink 的 Jar 包和配置,之后向 Yarn ResourceManager 提交任务,ResourceManager 分配 Container 资源并通知对应的 NodeManager 阅读全文
posted @ 2019-07-13 00:51 LXL_1 阅读(355) 评论(0) 推荐(0) 编辑
摘要: 3.Flink 集群搭建 Flink 可以选择的部署方式有: Local、Standalone(资源利用率低)、Yarn、Mesos、Docker、Kubernetes、AWS。 我们主要对 Standalone 模式和 Yarn 模式下的 Flink 集群部署进行分析。 3.1Standalone 阅读全文
posted @ 2019-07-13 00:26 LXL_1 阅读(750) 评论(0) 推荐(0) 编辑
摘要: 1.Flink 概述 1.1 流处理技术的演变 在开源世界里,Apache Storm 项目是流处理的先锋。Storm 最早由 Nathan Marz 和创业公司 BackType 的一个团队开发,后来才被 Apache 基金会接纳。Storm 提供 了低延迟的流处理,但是它为实时性付出了一些代价: 阅读全文
posted @ 2019-07-12 21:07 LXL_1 阅读(958) 评论(0) 推荐(0) 编辑
摘要: Spark Troubleshooting 3.1 故障排除一:控制 reduce 端缓冲大小以避免 OOM 在 Shuffle 过程,reduce 端 task 并不是等到 map 端 task 将其数据全部写入磁盘 后再去拉取,而是 map 端写一点数据,reduce 端 task 就会拉取一小 阅读全文
posted @ 2019-07-12 04:10 LXL_1 阅读(194) 评论(0) 推荐(0) 编辑
摘要: Spark 数据倾斜 Spark 中的数据倾斜问题主要指 shuffle 过程中出现的数据倾斜问题,是由于不 同的 key 对应的数据量不同导致的不同 task 所处理的数据量不同的问题。 例如,reduce 点一共要处理 100 万条数据,第一个和第二个 task 分别被分配到 了 1 万条数据, 阅读全文
posted @ 2019-07-12 02:18 LXL_1 阅读(230) 评论(0) 推荐(0) 编辑
摘要: Spark 性能调优 1.1 常规性能调优 1.1.1 常规性能调优一:最优资源配置 Spark 性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资 源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑 进行后面论述的性能调优策略。 资源的分配在使用脚本提交 Spa 阅读全文
posted @ 2019-07-11 21:56 LXL_1 阅读(323) 评论(0) 推荐(0) 编辑
摘要: 7.Spark 核心组件解析 7.1 BlockManager 数据存储与管理机制 BlockManager 是整个 Spark 底层负责数据存储与管理的一个组件,Driver 和 Executor 的所有数据都由对应的 BlockManager 进行管理。 Driver 上有 BlockManag 阅读全文
posted @ 2019-07-10 19:35 LXL_1 阅读(541) 评论(0) 推荐(0) 编辑
摘要: 6.Spark 内存管理 在执行 Spark 的应用程序时, Spark 集群会启动 Driver 和 Executor 两种 JVM 进程,前者为主控进程,负责创建 Spark 上下文,提交 Spark 作业(Job), 并将作业转化为计算任务(Task),在各个 Executor 进程间协调任务 阅读全文
posted @ 2019-07-10 19:24 LXL_1 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 5.Spark Shuffle 解析 5.1 Shuffle 的核心要点 5.1.1 ShuffleMapStage 与 FinalStage 在划分 stage 时,最后一个 stage 称为 FinalStage,它本质上是一个 ResultStage 对象,前面的所有 stage 被称为 Sh 阅读全文
posted @ 2019-07-10 19:14 LXL_1 阅读(306) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 38 下一页