会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
峰哥的专栏
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
2015年2月1日
Spark源码走读4——Scheduler
摘要: 用户提交的Job到DAGScheduler后,会封装成ActiveJob,同时启动JobWaiter监听作业的完成情况。同时依据job中RDD的dependency和dependency属性(NarrowDependency,ShufflerDependecy),DAGScheduler会根据依赖关...
阅读全文
posted @ 2015-02-01 11:44 Spark_莫然
阅读(361)
评论(0)
推荐(0)
编辑
2015年1月31日
Spark源码走读3——Job Runtime
摘要: 下面主要说明作业提交的的具体运行环境,这里从SparkContext中的runJob方法开始跟踪它的源码过程。下面的图简要的描述了Job运行的过程runJob的源码如下:这里主要有三个函数:Clean(func):主要是清理关闭一些内容,比如序列化。runJob(...):将任务提交给DagSche...
阅读全文
posted @ 2015-01-31 20:38 Spark_莫然
阅读(235)
评论(0)
推荐(0)
编辑
Spark源码走读2——Spark Submit
摘要: 这里主要说明作业提交的过程源码。SparkSubmit在org.apache.spark.deploy中,submit是一个单独的进程,首先查看它的main方法:createLaunchEnv方法中设置了一些配置参数:如返回值、集群模式、运行环境等。这里主要查看Client的集群模式。下面看下作业提...
阅读全文
posted @ 2015-01-31 20:26 Spark_莫然
阅读(244)
评论(0)
推荐(0)
编辑
Spark源码走读1——RDD
摘要: RDD全称Resilient Distributed DataSets,弹性的分布式数据集。是Spark的核心内容。RDD是只读的,不可变的数据集,也拥有很好的容错机制。他有5个主要特性 -A list of partitions 分片列表,数据能为切分才好做并行计算 -A function for...
阅读全文
posted @ 2015-01-31 20:04 Spark_莫然
阅读(306)
评论(0)
推荐(0)
编辑
2014年12月3日
Tachyon源码解读一:master部分
摘要: 一、Conf大多系统在启动的时候,必须读取配置信息。这里从配置文件开始。在路径tachyon/conf/Utils是所有配置类的基类,其中申明了基本属性类型(Boolean、Int、Long、String四种类型)。它有四个子类。一下是类关系图CommonConf是Master和Worker的公共配...
阅读全文
posted @ 2014-12-03 14:49 Spark_莫然
阅读(356)
评论(0)
推荐(0)
编辑
上一页
1
2
3
4
5