摘要: spark 算子的分类 转换算子 transformations 延迟执行--针对RDD的操作 操作算子 Action 触发执行 常用算子归纳 程序示例 transformations map、mapPartitions、mapPartitionsWithIndex package com.shuj 阅读全文
posted @ 2022-03-07 23:56 赤兔胭脂小吕布 阅读(56) 评论(0) 推荐(0) 编辑
摘要: RDD 分区数的设置 package com.shujia.spark import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo2Partition { def main 阅读全文
posted @ 2022-03-07 22:41 赤兔胭脂小吕布 阅读(148) 评论(0) 推荐(0) 编辑
摘要: 什么是 RDD RDD 全称 ResilientDistributedDataset (弹性分布式数据集 ) RDD 仅为一个抽象的编程模型,RDD 默认没有数据 RDD 的五大特性 A list of partitions 由一组分区组成,默认一个 Block 块对应一个 partition A 阅读全文
posted @ 2022-03-07 21:34 赤兔胭脂小吕布 阅读(91) 评论(0) 推荐(0) 编辑
摘要: spark 的简介 什么是 spark ? spark 与 MapReduce spark 是 一个计算引擎,是用来代替 MapReduce 的 MapReduce 的优点:稳定 spark 的优点:快 Apache Spark is an open source cluster computing 阅读全文
posted @ 2022-03-07 20:21 赤兔胭脂小吕布 阅读(142) 评论(0) 推荐(0) 编辑