2020 年 1月 18 日随笔档案 - 袁小丑

2020年1月18日

摘要：一、运行速度方面： Spark把中间数据放到内存中，迭代运算效率高。 Hadoop MapReduce将计算结果保存到磁盘上，这样会影响整体速度，而Spark支持DAG图的分布式并行计算的编程框架，减少了迭代过程中数据的落地，提高了处理效率。二、容错方面： Spark引进了弹性分布式数据集RDD 阅读全文

posted @ 2020-01-18 19:39 袁小丑阅读(769) 评论(0) 推荐(0) 编辑

袁小丑

公告