2020 年 2月 21 日随笔档案 - 二黑诶

2020年2月21日

摘要： Worker类源码位置： org.apache.spark.deploy.worker 1 /** 2 *启动driver的源码分析 3 */ 4 case LaunchDriver(driverId, driverDesc) => 5 logInfo(s"Asked to launch drive 阅读全文

posted @ 2020-02-21 23:09 二黑诶阅读(205) 评论(0) 推荐(0) 编辑

小记--------sparkstreaming常驻yarn调度程序调优

摘要： #!/bin/bash #hadoop export HADOOP_HOME=/opt/cloudera/parcels/CDH-5.14.0-1.cdh5.14.0.p0.24 export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH rea 阅读全文

posted @ 2020-02-21 23:02 二黑诶阅读(463) 评论(0) 推荐(0) 编辑

小记--------spark的shuffle原理分析及源码分析

摘要： Spark shuffle操作的两个特点第一个特点在spark早起版本中，那个bucket缓存是很重要的，因为需要将一个ShuffleMapTask所欲偶的数据都写入内存缓存之后，才会刷新到磁盘，但是有一个问题，如果map side数据过多，那么狠容易造成内存溢出，所以spark在新版本中，优化阅读全文

posted @ 2020-02-21 23:01 二黑诶阅读(212) 评论(0) 推荐(0) 编辑

小记--------spark的Master的Application注册机制源码分析及Master的注册机制原理分析

摘要： Master类位置所在：spark-core_2.11-2.1.0.jar的org.apache.spark.deploy.master下的Master类 1 //截取了部分代码 2 //处理Application注册的请求 3 case RegisterApplication(descriptio 阅读全文

posted @ 2020-02-21 23:00 二黑诶阅读(156) 评论(0) 推荐(0) 编辑

小记--------spark ——AGScheduler源码分析

摘要： DAGScheduler类位置：org.apache.spark.scheduler //DAGScheduler调度的核心入口 1 private[scheduler] def handleJobSubmitted(jobId: Int, 2 finalRDD: RDD[_], 3 func: ( 阅读全文

posted @ 2020-02-21 22:54 二黑诶阅读(229) 评论(0) 推荐(0) 编辑

于二黑

公告