作业4
一、RDD的创建
1.1.从本地文件系统中加载数据创建RDD
2.从HDFS加载数据创建RDD
启动HDFS,上传文件
查看文件
加载
停止HDFS
二、RDD操作
转换操作
filter(func),显式定义函数,lambda函数;map(func),显式定义函数,lambda函数
行动操作,foreach(print),foreach(lambda a:print(a.upper())),collect()
flatMap(func),分词,单词映射成键值对
reduceByKey(),统计词频,累加,乘法规则
groupByKey(),单词分组,查看分组内容,分组之后做累加map
sortByKey(),词频统计按单词排序;sortBy(),词频统计按词频排序;行动操作,foreach(print);foreach(lambda a:print(a.upper()))
collect(),count(),take(n)
reduce(),数值型的rdd元素做累加,与reduceByKey的区别