2.1

特点：懒执行

（1）map

map的输入变换函数应用于RDD中所有元素

（2）flatMap

flatMap与map区别在于map为“映射”，而flatMap“先映射，后扁平化”，map对每一次（func）都产生一个元素，返回一个对象，而flatMap多一步就是将所有对象合并为一个对象。

（3）flatMapValues

每个元素的Value被输入函数映射为一系列的值，然后这些值再与原RDD中的Key组成一系列新的KV对。

代码

Copy

x = sc.parallelize([("a", ["x", "y", "z"]), ("b", ["p", "r"])])
def f(x): return x
x.flatMapValues(f).collect()

打印结果

Copy

 [('a', 'x'), ('a', 'y'), ('a', 'z'), ('b', 'p'), ('b', 'r')]

filter

过滤操作，满足filter内function函数为true的RDD内所有元素组成一个新的数据集。

（4）groupByKey

主要作用是将相同的所有的键值对分组到一个集合序列当中，其顺序是不确定的。

（5）reduceByKey

与groupByKey类似，却有不同。如(a,1), (a,2), (b,1), (b,2)。groupByKey产生中间结果为( (a,1), (a,2) ), ( (b,1), (b,2) )。而reduceByKey为(a,3), (b,3)。

reduceByKey主要作用是聚合，groupByKey主要作用是分组。

（6）take

posted @ 2024-02-01 19:47 秋渡晚枫阅读(8) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 10.24

· python 实验

· map与flatmap的区别

· 第五章_Spark核心编程_Rdd_转换算子_Value型_flatMap算子

· Spark中flatMap、Map以及mapPartitions的区别

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· Manus的开源复刻OpenManus初探
· 三行代码完成国际化适配，妙~啊~
· .NET Core 中如何实现缓存的预热？
· 如何调用 DeepSeek 的自然语言处理 API 接口并集成到在线客服系统

公告

昵称：秋渡晚枫
园龄： 2年8个月
粉丝： 4
关注： 8

+加关注

2025年3月

日

一

二

三

四

五

六

2.1

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

最新评论