摘要: 弹性分布式数据集(RDD) Spark是以RDD概念为中心运行的。RDD是一个容错的、可以被并行操作的元素集合。创建一个RDD有两个方法:在你的驱动程序中并行化一个已经存在的集合;从外部存储系统中引用一个数据集。RDD的一大特性是分布式存储,分布式存储在最大的好处是可以让数据在不同工作节点并行存储, 阅读全文
posted @ 2016-07-08 20:15 Adien 阅读(36479) 评论(1) 推荐(1) 编辑
摘要: 简述 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据 阅读全文
posted @ 2016-07-08 20:13 Adien 阅读(12834) 评论(0) 推荐(0) 编辑
摘要: Spark作为一种开源集群计算环境,具有分布式的快速数据处理能力。而Spark中的Mllib定义了各种各样用于机器学习的数据结构以及算法。Python具有Spark的API。需要注意的是,Spark中,所有数据的处理都是基于RDD的。 首先举一个聚类方面的详细应用例子Kmeans: 下面代码是一些基 阅读全文
posted @ 2016-07-08 20:12 Adien 阅读(8936) 评论(2) 推荐(1) 编辑