2014年12月1日

Spark源码学习1.1——DAGScheduler.scala

摘要：本文以Spark1.1.0版本为基础。经过前一段时间的学习，基本上能够对Spark的工作流程有一个了解，但是具体的细节还是需要阅读源码，而且后续的科研过程中也肯定要修改源码的，所以最近开始Spark的源码的学习。首先以重要文件为基础分别分析，然后再整体的分析。（一）DAGScheduler.... 阅读全文

posted @ 2014-12-01 13:45 zx学习玩玩阅读(479) 评论(0) 推荐(0) 编辑

2014年9月21日

Spark随笔（三）：straggler的产生原因

摘要：首先，介绍前辈研究的基于MapReduce框架的outlier产生原因；其次，根据这些方面来分析Spark架构中的straggler；最后，根据阅览的优化办法，谈谈自己的看法。一、MapReduce产生outlier的原因 outlier是指MapReduce中延长job执行时间的因素，参考文... 阅读全文

posted @ 2014-09-21 20:49 zx学习玩玩阅读(3084) 评论(0) 推荐(0) 编辑

2014年9月17日

Spark随笔（二）：深入学习

摘要：一、如何选择粗粒度和细粒度从底层往上引申来理解粗粒度与细粒度。一层：一个类，具有三个属性值。为了查询这个类的所有实例，细粒度查询的程度为属性值，即依次查询每个实例化对象的属性值，查询三次；粗粒度按对象查询，直接查询该类的所有实例化对象，查询一次。查询结果是相同的，但是查询的方式却不同。这一类... 阅读全文

posted @ 2014-09-17 10:17 zx学习玩玩阅读(378) 评论(0) 推荐(0) 编辑

2014年9月10日

Spark随笔（一）：Spark的综合认识

摘要：一、Spark与Hadoop的关系 Spark和Hadoop只是共用了底层的MapReduce编程模型，即它们均是基于MapReduce思想所开发的分布式数据处理系统。 Hadoop采用MapReduce和HDFS技术，其MapReduce计算模型核心即Map操作和Reduce操作，在这个计算模... 阅读全文

posted @ 2014-09-10 17:08 zx学习玩玩阅读(1444) 评论(0) 推荐(0) 编辑

2014年9月9日

Hadoop随笔（二）：Hadoop V1到Hadoop V2的主要变化

摘要：一、消失的概念与新鲜的名词 Hadoop V2相对于Hadoop V1的变化主要在于资源管理和任务调度，计算模型仍然保持map/reduce的模型。资源管理和任务调度的变化导致了工作流程的变化，一些概念消失而一些概念又出现。 1、JobTrack与TaskTrack JobTrack和Ta... 阅读全文

posted @ 2014-09-09 09:55 zx学习玩玩阅读(817) 评论(0) 推荐(0) 编辑

2014年9月3日

Hadoop随笔（一）：工作流程的源码

摘要：一、几个可能会用到的属性值 1、mapred.map.tasks.speculative.execution和mapred.reduce.tasks.speculative.execution 这两个属性可以决定Map任务和Reduce任务是否开启推测式执行策略。推测式执行策略在Hadoop中用... 阅读全文

posted @ 2014-09-03 19:06 zx学习玩玩阅读(527) 评论(0) 推荐(0) 编辑