摘要:
#!/bin/bash #hadoop export HADOOP_HOME=/opt/cloudera/parcels/CDH-5.14.0-1.cdh5.14.0.p0.24 export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH rea 阅读全文
摘要:
Spark shuffle操作的两个特点 第一个特点 在spark早起版本中,那个bucket缓存是很重要的,因为需要将一个ShuffleMapTask所欲偶的数据都写入内存缓存之后,才会刷新到磁盘,但是有一个问题,如果map side数据过多,那么狠容易造成内存溢出,所以spark在新版本中,优化 阅读全文
摘要:
Master类位置所在:spark-core_2.11-2.1.0.jar的org.apache.spark.deploy.master下的Master类 1 //截取了部分代码 2 //处理Application注册的请求 3 case RegisterApplication(descriptio 阅读全文
摘要:
DAGScheduler类位置:org.apache.spark.scheduler //DAGScheduler调度的核心入口 1 private[scheduler] def handleJobSubmitted(jobId: Int, 2 finalRDD: RDD[_], 3 func: ( 阅读全文