摘要: 控制算子有三种,cache,persist,checkpoint,以上算子都可以将RDD持久化,持久化的单位是partition。cache和persist都是懒执行的。必须有一个action类算子触发执行。checkpoint算子不仅能将RDD持久化到磁盘,还能切断RDD之间的依赖关系 cache 阅读全文
posted @ 2019-07-21 20:42 北漂屌丝 阅读(1164) 评论(0) 推荐(0) 编辑
摘要: yarn-client提交任务方式 yarn-client提交任务方式 客户端提交一个Application,在客户端启动一个Driver进程 Driver进程会向RS(ResourceManager)发送请求,启动AM(ApplicationMaster)的资源 RS收到请求,随机选择一台NM(N 阅读全文
posted @ 2019-07-21 17:36 北漂屌丝 阅读(2680) 评论(0) 推荐(0) 编辑
摘要: Standalone-client模式: Standalone-client模式: client模式适用于测试调试程序。Driver进程是在客户端启动的,这里的客户端就是指提交应用程序的当前节点。在Driver端可以看到task执行的情况。生产环境下不能使用client模式,是因为:假设要提交100 阅读全文
posted @ 2019-07-21 17:35 北漂屌丝 阅读(1231) 评论(0) 推荐(0) 编辑
摘要: stage概念 Spark任务会根据RDD之间的依赖关系,形成一个DAG有向无环图,DAG会提交给DAGScheduler,DAGScheduler会把DAG划分相互依赖的多个stage,划分stage的依据就是RDD之间的宽窄依赖。遇到宽依赖就划分stage,每个stage包含一个或多个task任 阅读全文
posted @ 2019-07-21 17:14 北漂屌丝 阅读(245) 评论(0) 推荐(0) 编辑
摘要: RDD之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖 窄依赖,不会有shuffle的产生 父RDD和子RDD partition关系是一对一的 父RDD和子RDD partition关系是多对一的 窄依赖,不会有shuffle的产生 父RDD和子RDD partition关系是一对一的 父RD 阅读全文
posted @ 2019-07-21 16:43 北漂屌丝 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 1)A list of partitions 一组分区:RDD由很多partition构成,有多少partition就对应有多少task 2)A function for computing each split 一个函数:对RDD做计算,相当于对RDD的每个split或partition做计算 3 阅读全文
posted @ 2019-07-21 16:01 北漂屌丝 阅读(1639) 评论(0) 推荐(0) 编辑