10 2019 档案
摘要:一:Spark的性能优化,主要手段包括:1、使用高性能序列化类库2、优化数据结构3、对多次使用的RDD进行持久化 / Checkpoint4、使用序列化的持久化级别5、Java虚拟机垃圾回收调优6、提高并行度7、广播共享数据8、数据本地化9、reduceByKey和groupByKey的合理使用10
阅读全文
摘要:SparkContext,Master准备切换源码; TaskScheduler,Exector,Task,Shuffle,BlockManager,CacheManager,Checkponit源码; 拓展阅读:中华石杉-spark从入门到精通
阅读全文
摘要:一个job对应一个action操作,action执行会有先后顺序; 每个job执行会先构建一个DAG路径,一个job会含有多个stage,主要逻辑在DAGScheduler。 spark提交job的源码见(SparkContext.scala的runJob方法): DAGScheduler--job
阅读全文
摘要:worker启动一般包含两大部分:DriverRunner和ExcetorRunner。 worker启动driver的几个基本原理,最核心的是。worker内部会启动一个线程,这个线程可以理解为driverRunner。然后DriverRunner会去负责启动driver进程,并在之后对drive
阅读全文
摘要:schedule方法的总源码: 启动driver方法的源码: 启动workers源码: 扩展:中华石杉-spark从入门到精通,第48讲 要理解以上源码,需要知道其中的关系: spark一个集群会有多个master节点和多个worker节点,master节点负责管理worker节点,worker节点
阅读全文
摘要:查看源码需要先进行编译,注意修改版本: ./make-distribution.sh --tgz -Phadoop-2.6 -Pyarn -DskipTests -Dhadoop.version=2.6.0 -Phive 一:worker注册机制(worker启动之后) 1- worker在启动之后
阅读全文
摘要:yarn多租户配置管理(CapacityScheduler) hadoop的版本为2.7 一: 多租户实现前,只有一个default队列 二 配置文件修改 yarn-site.xml <property> <name>yarn.admin.acl</name> <value>hadp</value>
阅读全文