摘要: 第零章、三大数据结构 Spark 计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于处理不同的应用场景。三大数据结构分别是: RDD : 弹性分布式数据集 累加器:分布式共享只写变量 广播变量:分布式共享只读变量 简单的分布式计模型架构: Driver将任务分发给多个Execut 阅读全文
posted @ 2022-02-03 19:13 王陸 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 第一章 Spark 概述 1.1 Spark 是什么 Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。 Spark 最早源于一篇论文 Resilient Distributed Datasets: A Fault-Tolerant A 阅读全文
posted @ 2022-02-03 09:39 王陸 阅读(706) 评论(0) 推荐(0) 编辑