摘要:    本章介绍了Spark用于数据处理的核心抽象概念,具有弹性的分布式数据集(RDD)。一个RDD仅仅是一个分布式的元素集合。在Spark中,所有工作都表示为创建新的RDDs、转换现有的RDD,或者调用RDD上的操作来计算结果。在底层,Spark自动将数据中包含的数据分发到你的集 阅读全文
posted @ 2018-02-22 17:46 Tikko 阅读(806) 评论(0) 推荐(0) 编辑
摘要:   在网上找了很久中文版,感觉都是需要支付一定金币才能下载,索性自己翻译算了。因为对Spark有一定了解,而且书籍前面写道,对Spark了解可以直接从第三章阅读,就直接从第三章开始翻译了,应该没有什么影响。 tips:驱动程序就是写SparkRDD的main方法或者shell。( 阅读全文
posted @ 2018-02-22 17:44 Tikko 阅读(1276) 评论(0) 推荐(0) 编辑