2022 年 2月 3 日随笔档案 - 王陸

2022年2月3日

摘要：第零章、三大数据结构 Spark 计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是： RDD : 弹性分布式数据集累加器：分布式共享只写变量广播变量：分布式共享只读变量简单的分布式计模型架构： Driver将任务分发给多个Execut 阅读全文

posted @ 2022-02-03 19:13 王陸阅读(158) 评论(0) 推荐(0) 编辑

Spark （一）概述、原理、入门

摘要：第一章 Spark 概述 1.1 Spark 是什么 Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎。 Spark 最早源于一篇论文 Resilient Distributed Datasets: A Fault-Tolerant A 阅读全文

posted @ 2022-02-03 09:39 王陸阅读(706) 评论(0) 推荐(0) 编辑

王陸

我可不是为了被全人类喜欢才活着的，只要对于某一个人来说我是必要的，我就能活下去。

公告