4.RDD操作
一、 RDD创建
1、从本地文件系统中加载数据创建RDD
2、从HDFS加载数据创建RDD
启动hdfs
上传、查看文件
加载
停止hdfs
3、通过并行集合(列表)创建RDD
输入列表
字符串
numpy生成数组
二、 RDD操作
转换操作
1、filter(func)
显式定义函数
lambda函数
2、map(func)
a、字符串分词
显式定义函数
lambda函数
b、数字加100
c、字符串加固定前缀
3、flatMap(func)
a、分词
b、单词映射成键值对
4、reduceByKey()
a、统计词频,累加
b、乘法规则
5、groupByKey()
a、分组
b、查看分组的内容
c、分组之后做累加
6、sortByKey()
a、词频统计按单词排序
7、sortBy()
a、词频统计按词频排序
b、获得分区值
8、RDD写入文本文件
a、写入本地文件系统,并查看结果
b、写入分布式文件系统,并查看结果
行动操作
1、foreach(print)
foreach(lambda a:print(a.upper())
2、collect()
3、count()
4、take(n)
5、reduce()
数值型的rdd元素做累加
与reduceByKey区别
reduce是用于一元组,遍历一元组的数据,进行处理。
reduceByKey是用于二元组,对相同key的value值进行聚合,得到一个新的RDD
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构