摘要: 原理介绍: 并行度:其实就是指的是,spark作业中,各个stage的task数量,也代表了spark作业做得各个阶段的stage的并行度 设置参数: spark.default.parallelism 官网推荐 此参数设置成cpu core数量的2~3倍,比如150个cpu core,分配了150 阅读全文
posted @ 2018-05-14 12:19 大漠无影 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 原理: spark作业sparkcontext、DAGDAGSchedler、taskSchulder、会将编写算子、切割成大量的task,会提交到application的excutor上执行如何资源设置cup core和excutor较少,就会造成能并行处理的task数量较少,从而就会增加task 阅读全文
posted @ 2018-05-14 12:04 大漠无影 阅读(112) 评论(0) 推荐(0) 编辑