摘要: Spark对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset),简称RDD。RDD其实就是分布式的元素集合。在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这背后,Spark会自动将RDD中的数据分发到集群 阅读全文
posted @ 2020-05-30 20:55 夏日的向日葵 阅读(286) 评论(0) 推荐(0) 编辑
摘要: Spark是一个用来实现快速而通用的集群计算的平台。Spark的一个主要特点就是能够在内存中进行计算,因而更快。不过即使必须在磁盘上进行复杂的计算,Spark依然比MapReduce更加高效。Spark的核心是一个由很多计算任务组成的、运行在很多工作机器或者是一个计算集群上的应用进行调度、分发以及监 阅读全文
posted @ 2020-05-30 12:29 夏日的向日葵 阅读(149) 评论(0) 推荐(0) 编辑