4.RDD操作
一、 RDD创建
1.从本地文件系统中加载数据创建RDD
2.从HDFS加载数据创建RDD
exit()退出上一步后启动hdfs上传文件且查看文件
进入spark加载刚刚传入hdfs的文件
不使用HDFS了,记得停止hdfs
3.通过并行集合(列表)创建RDD
输入列表字符串numpy生成数组
二、 RDD操作
1.转换操作
filter(func)
map(func)
下面rdd2实行rdd1加10操作
flatMap(func)
groupByKey()
这里用的是输入的键值对来实验groupByKey()等下面的函数操作
reduceByKey()
sortByKey()词频统计按单词排序
sortBy()词频统计按词频排序
2.行动操作
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· AI与.NET技术实操系列(六):基于图像分类模型对图像进行分类