Spark RDD 原理及源码汇总

文章目录

一.介绍

RDD 作为 Spark 对于分布式数据模型的抽象，是构建 Spark 分布式内存计算引擎的基石。很多 Spark 核心概念与核心组件，如 DAG 和调度系统都衍生自 RDD。因此，深入理解 RDD 有利于你更全面、系统地学习 Spark 的工作原理。
尽管 RDD API 使用频率越来越低，绝大多数人也都已经习惯于 DataFrame 和 Dataset API，但是，无论采用哪种 API 或是哪种开发语言，你的应用在 Spark 内部最终都会转化为 RDD 之上的分布式计算。换句话说，如果你想要在运行时判断应用的性能瓶颈，前提是你要对 RDD 足够了解。

《Spark: Cluster Computing with Working Sets》RDD 的概念。RDD，全称 Resilient Distributed Datasets，翻译过来就是弹性分布式数据集。本质上，它是对于数据模型的抽象，用于囊括所有内存中和磁盘中的分布式数据实体

二.案例

薯片加工

posted @ 2021-10-17 19:16 Dlimeng 阅读(46) 评论(0) 收藏举报来源

刷新页面返回顶部

dlimeng

Spark RDD 原理及源码汇总

文章目录

一.介绍

二.案例

公告