摘要:
RDD:弹性分布式数据集,是spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 五大特性: —分区列表,RDD中的数据都存在一个分区列表里面 —作用在每一个分区中的函数 —RDD依赖于其他多个RDD —Partitioner针对KV类型的RDD —数据本地性,数据位 阅读全文
摘要:
回顾MapReduce的计算过程 Spark对比MapReduce Spark是借鉴了MapReduce的思想并在其基础上发展起来的,继承了其分布式计算的优点并改进其缺陷,但两者也有不少的差异如下: 1.spark更快,spark把运行的之间数据存放在内存,迭代计算效率高;mapreduce的之间结 阅读全文