随笔- 153 文章- 1 评论- 4 阅读- 49万

02 2024 档案

摘要：v> RDD 任务切分中间分为：Application、Job、Stage 和 Task Application：初始化一个 SparkContext 即生成一个 Application； Job：一个 Action 算子就会生成一个 Job； Stage：Stage 等于宽依赖(ShuffleDe 阅读全文

posted @ 2024-02-21 17:26 会飞的猪仔阅读(21) 评论(0) 推荐(0) 编辑

Spark中RDD阶段划分

摘要：分析源码步骤：第一步程序入口：第二步一直查看runjob方法，可以看出collect()是RDD行动算子，与Job运行提交相关 rdd.scala sparkcontext.scala sparkcontext.scala sparkcontext.scala 第三步runJob()与DAG调度阅读全文

posted @ 2024-02-21 16:17 会飞的猪仔阅读(30) 评论(0) 推荐(0) 编辑

glom用法

摘要：Spark glom 功能：该函数将RDD中每一个分区变成一个数组，并放置在新的RDD中，数组中元素的类型与原分区中元素类型一致 val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("mapPartitions 阅读全文

posted @ 2024-02-19 18:03 会飞的猪仔阅读(71) 评论(0) 推荐(0) 编辑

mapPartition与map函数

摘要：dd的mapPartitions是map的一个变种，它们都可进行分区的并行处理。两者的主要区别是调用的粒度不一样：map的输入变换函数是应用于RDD中每个元素，而mapPartitions的输入函数是应用于每个分区。Map 算子是分区内一个数据一个数据的执行，类似于串行操作。而 mapPartiti 阅读全文

posted @ 2024-02-19 15:52 会飞的猪仔阅读(86) 评论(0) 推荐(0) 编辑

公告

昵称：会飞的猪仔
园龄： 8年6个月
粉丝： 20
关注： 3

+加关注

2025年3月

日

一

二

三

四

五

六

会飞的猪仔

02 2024 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论