2015年2月1日
摘要: 用户提交的Job到DAGScheduler后,会封装成ActiveJob,同时启动JobWaiter监听作业的完成情况。同时依据job中RDD的dependency和dependency属性(NarrowDependency,ShufflerDependecy),DAGScheduler会根据依赖关... 阅读全文
posted @ 2015-02-01 11:44 Spark_莫然 阅读(361) 评论(0) 推荐(0) 编辑
  2015年1月31日
摘要: 下面主要说明作业提交的的具体运行环境,这里从SparkContext中的runJob方法开始跟踪它的源码过程。下面的图简要的描述了Job运行的过程runJob的源码如下:这里主要有三个函数:Clean(func):主要是清理关闭一些内容,比如序列化。runJob(...):将任务提交给DagSche... 阅读全文
posted @ 2015-01-31 20:38 Spark_莫然 阅读(235) 评论(0) 推荐(0) 编辑
摘要: 这里主要说明作业提交的过程源码。SparkSubmit在org.apache.spark.deploy中,submit是一个单独的进程,首先查看它的main方法:createLaunchEnv方法中设置了一些配置参数:如返回值、集群模式、运行环境等。这里主要查看Client的集群模式。下面看下作业提... 阅读全文
posted @ 2015-01-31 20:26 Spark_莫然 阅读(244) 评论(0) 推荐(0) 编辑
摘要: RDD全称Resilient Distributed DataSets,弹性的分布式数据集。是Spark的核心内容。RDD是只读的,不可变的数据集,也拥有很好的容错机制。他有5个主要特性 -A list of partitions 分片列表,数据能为切分才好做并行计算 -A function for... 阅读全文
posted @ 2015-01-31 20:04 Spark_莫然 阅读(306) 评论(0) 推荐(0) 编辑
  2014年12月3日
摘要: 一、Conf大多系统在启动的时候,必须读取配置信息。这里从配置文件开始。在路径tachyon/conf/Utils是所有配置类的基类,其中申明了基本属性类型(Boolean、Int、Long、String四种类型)。它有四个子类。一下是类关系图CommonConf是Master和Worker的公共配... 阅读全文
posted @ 2014-12-03 14:49 Spark_莫然 阅读(356) 评论(0) 推荐(0) 编辑