RDD操作
一、RDD创建
先启动pyspark

从本地文件系统中加载数据创建RDD,先启动hdfs,再上传


在hdfs中查看

停用hdfs

二、RDD的操作
1、转换操作
map(func)
显式定义函数
lambda函数


2、行动操作


3、flatMap(func)
分词
单词映射成键值对

4、reduceByKey()
统计词频,累加


乘法规则

5.groupByKey()
单词分组

查看分组的内容
分组之后做累加 map

6、sortBy()
词频统计按词频排序

7、sortByKey()
词频统计按单词排序


浙公网安备 33010602011771号