过雁

--每天都被梦想唤醒--

   :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2015年1月25日

摘要: Stage 是一组独立的任务,他们在一个job中执行相同的功能(function),功能的划分是以shuffle为边界的。DAG调度器以拓扑顺序执行同一个Stage中的task。/** * A stage is a set of independent tasks all computing the same function that need to run as part * of a Spa... 阅读全文
posted @ 2015-01-25 00:32 过雁 阅读(482) 评论(0) 推荐(0) 编辑

2015年1月24日

摘要: DAGScheduler最终创建了task set,并提交给了taskScheduler。那先得看看task是怎么定义和执行的。Task是execution执行的一个单元。Task: executor执行的基本单元,也是spark操作的最小单位。和java executor的task基本上是相同含义的。/** * A unit of execution. We have two kinds of ... 阅读全文
posted @ 2015-01-24 00:07 过雁 阅读(1889) 评论(0) 推荐(0) 编辑

2015年1月23日

摘要: 在前面的sparkContex和RDD都可以看到,真正的计算工作都是同过调用DAGScheduler的runjob方法来实现的。这是一个很重要的类。在看这个类实现之前,需要对actor模式有一点了解:http://en.wikipedia.org/wiki/Actor_modelhttp://www.slideshare.net/YungLinHo/introduction-to-actor-m... 阅读全文
posted @ 2015-01-23 23:31 过雁 阅读(764) 评论(0) 推荐(0) 编辑

摘要: 了解RDD之前,必读UCB的论文,个人认为这是最好的资料,没有之一。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable,* partiti... 阅读全文
posted @ 2015-01-23 01:21 过雁 阅读(458) 评论(0) 推荐(0) 编辑

摘要: SparkContext 是spark的程序入口,相当于熟悉的‘main’函数。它负责链接spark集群、创建RDD、创建累加计数器、创建广播变量。/** * Main entry point for Spark functionality. A SparkContext represents the connection to a Spark * cluster, and can be used... 阅读全文
posted @ 2015-01-23 01:21 过雁 阅读(4592) 评论(0) 推荐(0) 编辑

2015年1月22日

摘要: spark支持YARN做资源调度器,所以YARN的原理还是应该知道的:http://www.socc2013.org/home/program/a5-vavilapalli.pdf 但总体来说,这是一篇写得一般的论文,它的原理没有什么特别突出的,而且它列举的数据没有对比性,几乎看不出YARN有什么优势。反正我看完的感觉是,YARN的资源分配在延迟上估计很糟糕。而实际使用似乎也印证了这个预感... 阅读全文
posted @ 2015-01-22 00:49 过雁 阅读(1083) 评论(0) 推荐(0) 编辑

2015年1月20日

摘要: spark论文中说他使用了延迟调度算法,源于这篇论文:http://people.csail.mit.edu/matei/papers/2010/eurosys_delay_scheduling.pdf同时它也是hadoop的调度算法。Abstractdelayscheduling: when the job that should be scheduled next according to... 阅读全文
posted @ 2015-01-20 02:10 过雁 阅读(2174) 评论(0) 推荐(0) 编辑

2015年1月18日

摘要: http://v.163.com/movie/2013/4/U/9/M93FDHRBE_M93FFFNU9.html 来自为知笔记(Wiz) 阅读全文
posted @ 2015-01-18 14:46 过雁 阅读(420) 评论(0) 推荐(0) 编辑

摘要: http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf ucb关于spark的论文,对spark中核心组件RDD最原始、本质的理解,没有比这个更好的资料了。必读。AbstractRDDs provide arestricted form of shared memory, based on coarse grained tran... 阅读全文
posted @ 2015-01-18 02:56 过雁 阅读(669) 评论(0) 推荐(0) 编辑

2015年1月14日

摘要: 必读:从官方的开发者页面着手,包括如何构建spark以及编码规范(强烈建议读读编程规范)等;https://cwiki.apache.org/confluence/display/SPARK/Contributing+to+Spark必读: 官方文档简介:http://spark.apache.org/docs/latest/,以及这里的所有超链接都应该看一遍。应该有个印象; 必读: RDD的论文... 阅读全文
posted @ 2015-01-14 02:17 过雁 阅读(361) 评论(0) 推荐(0) 编辑