摘要:
一、前述 Spark内存管理 Spark执行应用程序时,Spark集群会启动Driver和Executor两种JVM进程,Driver负责创建SparkContext上下文,提交任务,task的分发等。Executor负责task的计算任务,并将结果返回给Driver。同时需要为需要持久化的RDD提 阅读全文
摘要:
一、前述 Spark中Shuffle的机制可以分为HashShuffle,SortShuffle。 SparkShuffle概念 reduceByKey会将上一个RDD中的每一个key对应的所有value聚合成一个value,然后生成一个新的RDD,元素类型是<key,value>对的形式,这样每一 阅读全文
摘要:
一、前述 本节讲述Spark Master的HA的搭建,为的是防止单点故障。 Spark-UI 的使用介绍,可以更好的监控Spark应用程序的执行。 二、具体细节 1、Master HA 1、Master的高可用原理 Standalone集群只有一个Master,如果Master挂了就无法提交应用程 阅读全文