过雁

--每天都被梦想唤醒--

   :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2015年1月23日

摘要: 在前面的sparkContex和RDD都可以看到,真正的计算工作都是同过调用DAGScheduler的runjob方法来实现的。这是一个很重要的类。在看这个类实现之前,需要对actor模式有一点了解:http://en.wikipedia.org/wiki/Actor_modelhttp://www.slideshare.net/YungLinHo/introduction-to-actor-m... 阅读全文
posted @ 2015-01-23 23:31 过雁 阅读(766) 评论(0) 推荐(0) 编辑

摘要: 了解RDD之前,必读UCB的论文,个人认为这是最好的资料,没有之一。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable,* partiti... 阅读全文
posted @ 2015-01-23 01:21 过雁 阅读(460) 评论(0) 推荐(0) 编辑

摘要: SparkContext 是spark的程序入口,相当于熟悉的‘main’函数。它负责链接spark集群、创建RDD、创建累加计数器、创建广播变量。/** * Main entry point for Spark functionality. A SparkContext represents the connection to a Spark * cluster, and can be used... 阅读全文
posted @ 2015-01-23 01:21 过雁 阅读(4594) 评论(0) 推荐(0) 编辑