摘要: Spark比MR快的原因 1、Spark基于内存的计算 2、粗粒度资源调度 3、DAG有向无环图:可以根据宽窄依赖划分出可以并行计算的task 细粒度资源调度 MR是属于细粒度资源调度 优点:每个task运行的时候单独申请资源,资源被充分利用 缺点:task启动速度慢 粗粒度资源调度 Spark是属 阅读全文
posted @ 2021-11-12 21:09 lmandcc 阅读(354) 评论(0) 推荐(1) 编辑
摘要: DAG(有向无环图) Spark的DAG:就是spark任务/程序执行的流程图! DAG的开始:从创建RDD开始 DAG的结束:到Action结束 一个Spark程序中有几个Action操作就有几个DAG! Stage(阶段) 为什么需要划分Stage? 前面提到Spark可以根据代码执行流程形成一 阅读全文
posted @ 2021-11-12 20:34 lmandcc 阅读(329) 评论(0) 推荐(0) 编辑
摘要: 宽依赖 1.有shuffle 2.父RDD的一个分区会被子RDD的多个分区所依赖(父一对多) 窄依赖 1.没有shuffle 2.父RDD的一个分区只会被子RDD的1个分区所依赖(一对一) 划分宽依赖和窄依赖的原因 窄依赖:Spark可以对窄依赖进行优化:合并操作,形成pipeline(管道),同一 阅读全文
posted @ 2021-11-12 20:18 lmandcc 阅读(290) 评论(0) 推荐(0) 编辑
摘要: Spark中术语解释 Application:基于Spark的应用程序,包含了driver程序和 集群上的executor DriverProgram:运行main函数并且新建SparkContext的程序 ClusterManager:在集群上获取资源的外部服务(例如 standalone,Mes 阅读全文
posted @ 2021-11-12 19:47 lmandcc 阅读(163) 评论(0) 推荐(0) 编辑