楚时邀月 - 博客园

2017年9月27日

摘要：前言在上一篇文章中，我主要是讲解了DAG阶段的处理，spark是如何将一个job根据宽窄依赖划分出多个stage的，在最后一步中是将生成的TaskSet提交给了TaskSchedulerInmpl的。此次我们从taskScheduler.submitTasks开始讲，深入理解TaskSchedu 阅读全文

posted @ 2017-09-27 16:38 楚时邀月阅读(834) 评论(0) 推荐(0)

2017年9月25日

spark[源码]-DAG调度器源码分析[二]

摘要：前言根据图片上的结构划分我们不难发现当rdd触发action操作之后，会调用SparkContext的runJob方法，最后调用的DAGScheduler.handleJobSubmitted方法完成整个job的提交。然后DAGScheduler根据RDD的lineage进行Stage划分，再生成阅读全文

posted @ 2017-09-25 16:18 楚时邀月阅读(840) 评论(0) 推荐(0)

2017年9月7日

spark[源码]-sparkContext详解[一]

摘要： spark简述 sparkContext在Spark应用程序的执行过程中起着主导作用，它负责与程序和spark集群进行交互，包括申请集群资源、创建RDD、accumulators及广播变量等。sparkContext与集群资源管理器、work节点交互图如下：官网对图下面几点说明：（1）不同的Sp 阅读全文

posted @ 2017-09-07 11:50 楚时邀月阅读(13472) 评论(0) 推荐(3)

2017年9月4日

spark[源码]-Pool分析

摘要：概述这篇文章主要是分析一下Pool这个任务调度的队列。整体代码量也不是很大，正好可以详细的分析一下，前面在TaskSchedulerImpl提到大体的功能，这个点在丰富一下吧。 DAGScheduler负责构建具有依赖关系的任务集，TaskSetManger负责在具体的任务集内部调度任务，而Tas 阅读全文

posted @ 2017-09-04 19:51 楚时邀月阅读(989) 评论(0) 推荐(0)

spark[源码]-TaskSchedulerlmpl类源码

摘要： TaskSchedulerImpl概述 TaskSchedulerlmpl是创建三大核心TaskSheduler的实现类，TaskScheduler是一个特征类，DAGScheduler在提交TaskSet给底层调度器的时候是面向接口TaskScheduler，这符合面向对象中依赖抽象而不依赖具体的阅读全文

posted @ 2017-09-04 19:32 楚时邀月阅读(821) 评论(0) 推荐(0)

spark[源码]-SparkEnv执行环境创建

摘要： sparkEnv概述 sparkEnv是spark的执行环境，其中包括众多与Executor执行相关的对象。在local模式下Driver会创建Executor,local-cluster部署模式或者Standalone部署模式下worker另起的CoarseGrainedExecutorBacke 阅读全文

posted @ 2017-09-04 16:28 楚时邀月阅读(1130) 评论(0) 推荐(0)

2017年9月3日

spark[源码]-sparkContext概述

摘要： SparkContext概述 sparkContext是所有的spark应用程序的发动机引擎，就是说你想要运行spark程序就必须创建一个，不然就没的玩了。sparkContext负责初始化很多东西，当其初始化完毕以后，才能像spark集群提交任务，这个地方还有另一个管理配置的类sparkConf，阅读全文

posted @ 2017-09-03 10:01 楚时邀月阅读(846) 评论(0) 推荐(0)

2017年6月29日

spark学习(基础篇)--(第三节)Spark几种运行模式

摘要： spark应用执行机制分析前段时间一直在编写指标代码，一直采用的是--deploy-mode client方式开发测试，因此执行没遇到什么问题，但是放到生产上采用--master yarn-cluster方式运行，那问题就开始陆续暴露出来了。因此写一篇文章分析并记录一下spark的几种运行方式。阅读全文

posted @ 2017-06-29 15:43 楚时邀月阅读(14357) 评论(0) 推荐(2)

2017年6月1日

spark关于join后有重复列的问题（org.apache.spark.sql.AnalysisException: Reference '*' is ambiguous）

摘要：问题 datafrme提供了强大的JOIN操作,但是在操作的时候，经常发现会碰到重复列的问题。在你不注意的时候，去用相关列做其他操作的时候，就会出现问题！假如这两个字段同时存在，那么就会报错，如下：org.apache.spark.sql.AnalysisException: Reference 阅读全文

posted @ 2017-06-01 10:10 楚时邀月阅读(19565) 评论(0) 推荐(0)

2017年5月5日

Spark --【宽依赖和窄依赖】

摘要：前言 Spark中RDD的高效与DAG图有着莫大的关系，在DAG调度中需要对计算过程划分stage，暴力的理解就是stage的划分是按照有没有涉及到shuffle来划分的，没涉及的shuffle的都划分在一个stage里面，这种划分依据就是RDD之间的依赖关系。针对不同的转换函数，RDD之间的依赖关阅读全文

posted @ 2017-05-05 11:49 楚时邀月阅读(4198) 评论(0) 推荐(1)

公告