摘要: Worker类源码位置: org.apache.spark.deploy.worker 1 /** 2 *启动driver的源码分析 3 */ 4 case LaunchDriver(driverId, driverDesc) => 5 logInfo(s"Asked to launch drive 阅读全文
posted @ 2020-02-21 23:09 二黑诶 阅读(205) 评论(0) 推荐(0) 编辑
摘要: #!/bin/bash #hadoop export HADOOP_HOME=/opt/cloudera/parcels/CDH-5.14.0-1.cdh5.14.0.p0.24 export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH rea 阅读全文
posted @ 2020-02-21 23:02 二黑诶 阅读(463) 评论(0) 推荐(0) 编辑
摘要: Spark shuffle操作的两个特点 第一个特点 在spark早起版本中,那个bucket缓存是很重要的,因为需要将一个ShuffleMapTask所欲偶的数据都写入内存缓存之后,才会刷新到磁盘,但是有一个问题,如果map side数据过多,那么狠容易造成内存溢出,所以spark在新版本中,优化 阅读全文
posted @ 2020-02-21 23:01 二黑诶 阅读(212) 评论(0) 推荐(0) 编辑
摘要: Master类位置所在:spark-core_2.11-2.1.0.jar的org.apache.spark.deploy.master下的Master类 1 //截取了部分代码 2 //处理Application注册的请求 3 case RegisterApplication(descriptio 阅读全文
posted @ 2020-02-21 23:00 二黑诶 阅读(156) 评论(0) 推荐(0) 编辑
摘要: DAGScheduler类位置:org.apache.spark.scheduler //DAGScheduler调度的核心入口 1 private[scheduler] def handleJobSubmitted(jobId: Int, 2 finalRDD: RDD[_], 3 func: ( 阅读全文
posted @ 2020-02-21 22:54 二黑诶 阅读(229) 评论(0) 推荐(0) 编辑