随笔- 85 文章- 0 评论- 4 阅读- 15万

10 2019 档案

摘要：一：Spark的性能优化，主要手段包括：1、使用高性能序列化类库2、优化数据结构3、对多次使用的RDD进行持久化 / Checkpoint4、使用序列化的持久化级别5、Java虚拟机垃圾回收调优6、提高并行度7、广播共享数据8、数据本地化9、reduceByKey和groupByKey的合理使用10 阅读全文

posted @ 2019-10-27 21:23 上海小墨子阅读(1908) 评论(0) 推荐(0) 编辑

spark从入门到精通未了解部分

摘要：SparkContext，Master准备切换源码； TaskScheduler,Exector,Task,Shuffle,BlockManager,CacheManager,Checkponit源码；拓展阅读：中华石杉-spark从入门到精通阅读全文

posted @ 2019-10-27 15:50 上海小墨子阅读(217) 评论(0) 推荐(0) 编辑

spark--job和DAGScheduler源码

摘要：一个job对应一个action操作，action执行会有先后顺序；每个job执行会先构建一个DAG路径，一个job会含有多个stage，主要逻辑在DAGScheduler。 spark提交job的源码见（SparkContext.scala的runJob方法）： DAGScheduler--job 阅读全文

posted @ 2019-10-27 15:43 上海小墨子阅读(366) 评论(0) 推荐(0) 编辑

spark源码--worker启动原理和源码

摘要：worker启动一般包含两大部分：DriverRunner和ExcetorRunner。 worker启动driver的几个基本原理，最核心的是。worker内部会启动一个线程，这个线程可以理解为driverRunner。然后DriverRunner会去负责启动driver进程，并在之后对drive 阅读全文

posted @ 2019-10-27 14:54 上海小墨子阅读(456) 评论(0) 推荐(0) 编辑

spark-master源码之schedule

摘要：schedule方法的总源码：启动driver方法的源码：启动workers源码：扩展：中华石杉-spark从入门到精通，第48讲要理解以上源码，需要知道其中的关系： spark一个集群会有多个master节点和多个worker节点，master节点负责管理worker节点，worker节点阅读全文

posted @ 2019-10-26 15:33 上海小墨子阅读(407) 评论(0) 推荐(0) 编辑

spark-Master注册机制和状态改变处理机制

摘要：查看源码需要先进行编译，注意修改版本： ./make-distribution.sh --tgz -Phadoop-2.6 -Pyarn -DskipTests -Dhadoop.version=2.6.0 -Phive 一：worker注册机制（worker启动之后） 1- worker在启动之后阅读全文

posted @ 2019-10-26 10:02 上海小墨子阅读(371) 评论(0) 推荐(0) 编辑

yarn多租户管理

摘要：yarn多租户配置管理(CapacityScheduler) hadoop的版本为2.7 一：多租户实现前，只有一个default队列二配置文件修改 yarn-site.xml <property> <name>yarn.admin.acl</name> <value>hadp</value> 阅读全文

posted @ 2019-10-22 18:53 上海小墨子阅读(1989) 评论(0) 推荐(0) 编辑

公告

昵称：上海小墨子
园龄： 6年5个月
粉丝： 7
关注： 3

+加关注

2025年3月

日

一

二

三

四

五

六

上海小墨子

10 2019 档案

公告

搜索

常用链接

我的标签

积分与排名

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论