RDD操作

一、RDD创建

先启动pyspark

从本地文件系统中加载数据创建RDD,先启动hdfs,再上传

在hdfs中查看

停用hdfs

二、RDD的操作

1、转换操作

map(func)
显式定义函数
lambda函数

 

2、行动操作

 

3、flatMap(func)

分词

单词映射成键值对

 

4、reduceByKey()

统计词频,累加

 

乘法规则

5.groupByKey()

单词分组

 

查看分组的内容

分组之后做累加 map

 

6、sortBy()

词频统计按词频排序

7、sortByKey()

词频统计按单词排序

 

posted @ 2022-03-16 11:16  伽森  阅读(29)  评论(0编辑  收藏  举报