摘要: 一、运行速度方面: Spark把中间数据放到内存中,迭代运算效率高。 Hadoop MapReduce将计算结果保存到磁盘上,这样会影响整体速度,而Spark支持DAG图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。 二、容错方面: Spark引进了弹性分布式数据集RDD  阅读全文
posted @ 2020-01-18 19:39 袁小丑 阅读(769) 评论(0) 推荐(0) 编辑