摘要: 1. spark shuffle write和shuffle read 什么是shuffle操作 spark中的shuffle操作功能:将分布在集群中多个节点上的同一个key,拉取到同一个节点上,进行聚合或join操作,类似洗牌的操作。这些分布在各个存储节点上的数据重新打乱然后汇聚到不同节点的过程就 阅读全文
posted @ 2021-03-25 14:30 wanpi 阅读(86) 评论(0) 推荐(0) 编辑
摘要: 1、各种模式的运行图解 1.1 Standalone-client 使用SparkSubmit提交任务的时候,使用本地的Client类的main函数来创建sparkcontext并初始化它,为我们的Application启动一个Driver进程; 1、Driver连接到Master,注册并申请资源( 阅读全文
posted @ 2021-03-25 14:29 wanpi 阅读(93) 评论(0) 推荐(0) 编辑
摘要: 1、数据本地化级别 数据本地化:数据离计算它的代码有多近。基于数据距离代码的距离,有几种数据本地化级别: PROCESS_LOCAL :数据和计算它的代码在同一个Executor JVM进程中。 NODE_LOCAL : 数据和计算它的代码在同一个节点,但不在同一个进程中,比如在不同的executo 阅读全文
posted @ 2021-03-25 14:28 wanpi 阅读(148) 评论(0) 推荐(0) 编辑