2014年12月1日

摘要: 本文以Spark1.1.0版本为基础。 经过前一段时间的学习,基本上能够对Spark的工作流程有一个了解,但是具体的细节还是需要阅读源码,而且后续的科研过程中也肯定要修改源码的,所以最近开始Spark的源码的学习。首先以重要文件为基础分别分析,然后再整体的分析。(一)DAGScheduler.... 阅读全文
posted @ 2014-12-01 13:45 zx学习玩玩 阅读(479) 评论(0) 推荐(0) 编辑
 

2014年9月21日

摘要: 首先,介绍前辈研究的基于MapReduce框架的outlier产生原因;其次,根据这些方面来分析Spark架构中的straggler;最后,根据阅览的优化办法,谈谈自己的看法。一、MapReduce产生outlier的原因 outlier是指MapReduce中延长job执行时间的因素,参考文... 阅读全文
posted @ 2014-09-21 20:49 zx学习玩玩 阅读(3084) 评论(0) 推荐(0) 编辑
 

2014年9月17日

摘要: 一、如何选择粗粒度和细粒度 从底层往上引申来理解粗粒度与细粒度。 一层:一个类,具有三个属性值。为了查询这个类的所有实例,细粒度查询的程度为属性值,即依次查询每个实例化对象的属性值,查询三次;粗粒度按对象查询,直接查询该类的所有实例化对象,查询一次。查询结果是相同的,但是查询的方式却不同。这一类... 阅读全文
posted @ 2014-09-17 10:17 zx学习玩玩 阅读(378) 评论(0) 推荐(0) 编辑
 

2014年9月10日

摘要: 一、Spark与Hadoop的关系 Spark和Hadoop只是共用了底层的MapReduce编程模型,即它们均是基于MapReduce思想所开发的分布式数据处理系统。 Hadoop采用MapReduce和HDFS技术,其MapReduce计算模型核心即Map操作和Reduce操作,在这个计算模... 阅读全文
posted @ 2014-09-10 17:08 zx学习玩玩 阅读(1444) 评论(0) 推荐(0) 编辑
 

2014年9月9日

摘要: 一、消失的概念与新鲜的名词 Hadoop V2相对于Hadoop V1的变化主要在于资源管理和任务调度,计算模型仍然保持map/reduce的模型。资源管理和任务调度的变化导致了工作流程的变化,一些概念消失而一些概念又出现。 1、JobTrack与TaskTrack JobTrack和Ta... 阅读全文
posted @ 2014-09-09 09:55 zx学习玩玩 阅读(817) 评论(0) 推荐(0) 编辑
 

2014年9月3日

摘要: 一、几个可能会用到的属性值 1、mapred.map.tasks.speculative.execution和mapred.reduce.tasks.speculative.execution 这两个属性可以决定Map任务和Reduce任务是否开启推测式执行策略。推测式执行策略在Hadoop中用... 阅读全文
posted @ 2014-09-03 19:06 zx学习玩玩 阅读(527) 评论(0) 推荐(0) 编辑