会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
zx学习玩玩
上一页
1
2
2014年12月1日
Spark源码学习1.1——DAGScheduler.scala
摘要: 本文以Spark1.1.0版本为基础。 经过前一段时间的学习,基本上能够对Spark的工作流程有一个了解,但是具体的细节还是需要阅读源码,而且后续的科研过程中也肯定要修改源码的,所以最近开始Spark的源码的学习。首先以重要文件为基础分别分析,然后再整体的分析。(一)DAGScheduler....
阅读全文
posted @ 2014-12-01 13:45 zx学习玩玩
阅读(479)
评论(0)
推荐(0)
编辑
2014年9月21日
Spark随笔(三):straggler的产生原因
摘要: 首先,介绍前辈研究的基于MapReduce框架的outlier产生原因;其次,根据这些方面来分析Spark架构中的straggler;最后,根据阅览的优化办法,谈谈自己的看法。一、MapReduce产生outlier的原因 outlier是指MapReduce中延长job执行时间的因素,参考文...
阅读全文
posted @ 2014-09-21 20:49 zx学习玩玩
阅读(3084)
评论(0)
推荐(0)
编辑
2014年9月17日
Spark随笔(二):深入学习
摘要: 一、如何选择粗粒度和细粒度 从底层往上引申来理解粗粒度与细粒度。 一层:一个类,具有三个属性值。为了查询这个类的所有实例,细粒度查询的程度为属性值,即依次查询每个实例化对象的属性值,查询三次;粗粒度按对象查询,直接查询该类的所有实例化对象,查询一次。查询结果是相同的,但是查询的方式却不同。这一类...
阅读全文
posted @ 2014-09-17 10:17 zx学习玩玩
阅读(378)
评论(0)
推荐(0)
编辑
2014年9月10日
Spark随笔(一):Spark的综合认识
摘要: 一、Spark与Hadoop的关系 Spark和Hadoop只是共用了底层的MapReduce编程模型,即它们均是基于MapReduce思想所开发的分布式数据处理系统。 Hadoop采用MapReduce和HDFS技术,其MapReduce计算模型核心即Map操作和Reduce操作,在这个计算模...
阅读全文
posted @ 2014-09-10 17:08 zx学习玩玩
阅读(1444)
评论(0)
推荐(0)
编辑
2014年9月9日
Hadoop随笔(二):Hadoop V1到Hadoop V2的主要变化
摘要: 一、消失的概念与新鲜的名词 Hadoop V2相对于Hadoop V1的变化主要在于资源管理和任务调度,计算模型仍然保持map/reduce的模型。资源管理和任务调度的变化导致了工作流程的变化,一些概念消失而一些概念又出现。 1、JobTrack与TaskTrack JobTrack和Ta...
阅读全文
posted @ 2014-09-09 09:55 zx学习玩玩
阅读(817)
评论(0)
推荐(0)
编辑
2014年9月3日
Hadoop随笔(一):工作流程的源码
摘要: 一、几个可能会用到的属性值 1、mapred.map.tasks.speculative.execution和mapred.reduce.tasks.speculative.execution 这两个属性可以决定Map任务和Reduce任务是否开启推测式执行策略。推测式执行策略在Hadoop中用...
阅读全文
posted @ 2014-09-03 19:06 zx学习玩玩
阅读(527)
评论(0)
推荐(0)
编辑
上一页
1
2
公告
导航
博客园
首页
新随笔
新文章
联系
订阅
管理