yetang307

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2024年1月10日

摘要: 由于Apache Spark支持内存计算,并且通过DAG(有向无环图)执行引擎支持无环数据流,所以官方宣称其在内存中的运算速度要比 Hadoop的MapReduce快100倍,在硬盘中要快10倍。 Spark处理数据与MapReduce处理数据相比,有如下两个不同点:  其一、Spark处理数据时 阅读全文
posted @ 2024-01-10 23:39 椰糖 阅读(1) 评论(0) 推荐(0) 编辑

摘要: 1.1 Spark是什么 定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。 Spark 最早源于一篇论文 Resilient Distributed Datasets: A Fault-Tolerant Abstraction 阅读全文
posted @ 2024-01-10 23:39 椰糖 阅读(1) 评论(0) 推荐(0) 编辑