作业4

一、RDD的创建

1.1.从本地文件系统中加载数据创建RDD

2.从HDFS加载数据创建RDD

启动HDFS,上传文件

查看文件

加载

停止HDFS

二、RDD操作

转换操作

filter(func),显式定义函数,lambda函数;map(func),显式定义函数,lambda函数

行动操作,foreach(print),foreach(lambda a:print(a.upper())),collect()

flatMap(func),分词,单词映射成键值对

reduceByKey(),统计词频,累加,乘法规则

groupByKey(),单词分组,查看分组内容,分组之后做累加map

sortByKey(),词频统计按单词排序;sortBy(),词频统计按词频排序;行动操作,foreach(print);foreach(lambda a:print(a.upper()))

collect(),count(),take(n)

reduce(),数值型的rdd元素做累加,与reduceByKey的区别

 

posted @ 2022-03-29 15:26  Orlando_Chan  阅读(10)  评论(0编辑  收藏  举报