2015 年 1月 23 日随笔档案 - 过雁

公告

2015年1月23日

摘要：在前面的sparkContex和RDD都可以看到，真正的计算工作都是同过调用DAGScheduler的runjob方法来实现的。这是一个很重要的类。在看这个类实现之前，需要对actor模式有一点了解：http://en.wikipedia.org/wiki/Actor_modelhttp://www.slideshare.net/YungLinHo/introduction-to-actor-m... 阅读全文

posted @ 2015-01-23 23:31 过雁阅读(766) 评论(0) 推荐(0) 编辑

spark 笔记 6: RDD

摘要：了解RDD之前，必读UCB的论文，个人认为这是最好的资料，没有之一。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable,* partiti... 阅读全文

posted @ 2015-01-23 01:21 过雁阅读(460) 评论(0) 推荐(0) 编辑

spark 笔记 5: SparkContext，SparkConf

摘要： SparkContext 是spark的程序入口，相当于熟悉的‘main’函数。它负责链接spark集群、创建RDD、创建累加计数器、创建广播变量。/** * Main entry point for Spark functionality. A SparkContext represents the connection to a Spark * cluster, and can be used... 阅读全文

posted @ 2015-01-23 01:21 过雁阅读(4594) 评论(0) 推荐(0) 编辑