摘要:
Standalone-client模式: Standalone-client模式: client模式适用于测试调试程序。Driver进程是在客户端启动的,这里的客户端就是指提交应用程序的当前节点。在Driver端可以看到task执行的情况。生产环境下不能使用client模式,是因为:假设要提交100 阅读全文
摘要:
stage概念 Spark任务会根据RDD之间的依赖关系,形成一个DAG有向无环图,DAG会提交给DAGScheduler,DAGScheduler会把DAG划分相互依赖的多个stage,划分stage的依据就是RDD之间的宽窄依赖。遇到宽依赖就划分stage,每个stage包含一个或多个task任 阅读全文
摘要:
RDD之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖 窄依赖,不会有shuffle的产生 父RDD和子RDD partition关系是一对一的 父RDD和子RDD partition关系是多对一的 窄依赖,不会有shuffle的产生 父RDD和子RDD partition关系是一对一的 父RD 阅读全文
摘要:
1)A list of partitions 一组分区:RDD由很多partition构成,有多少partition就对应有多少task 2)A function for computing each split 一个函数:对RDD做计算,相当于对RDD的每个split或partition做计算 3 阅读全文