摘要: 阅读全文
posted @ 2024-01-13 10:37 阿飞藏泪 阅读(5) 评论(0) 推荐(0) 编辑
摘要: RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可 分区、里面的元素可并行计算的集合。 Dataset:一个数据集合,用于存放数据的。 Distributed:RDD中的数据是分布式存储的,可用于分布式计算。 阅读全文
posted @ 2024-01-13 09:54 阿飞藏泪 阅读(10) 评论(0) 推荐(0) 编辑
摘要: SparkContext对象的构建 以及 Spark程序的退出, 由 Driver 负责执行 具体的数据处理步骤, 由Executor在执行. 其实简单来说就是: 非数据处理的部分由Driver工作 数据处理的部分(干活)由Executor工作 要知道: Executor不仅仅是一个, 视集群规模, 阅读全文
posted @ 2024-01-13 09:41 阿飞藏泪 阅读(2) 评论(0) 推荐(0) 编辑
1 2 3
4