RDD操作
一、 RDD创建
1.从本地文件系统中加载数据创建RDD
print命令要输入from __future__ import print_function
2.从HDFS加载数据创建RDD
启动hdfs
上传文件
查看文件
加载
停止hdfs
3.通过并行集合(列表)创建R
数组
列表
字符串
二、 RDD操作
转换操作 filter(func):筛选出满足函数func的元素,并返回一个新的数据集
显式定义函数,lambda函数
map(func)操作将每个元素传递到函数func中,并将结果返回为一个新的数据集
显式定义函数,lambda函数
1、数字加10
2、字符串分词
3、字符串加固定前缀
flatMap(func)
1、分词
2、单词映射成键值对
reduceByKey()
1、统计词频,累加
2、乘法规则
groupByKey()
1、单词分组
2、查看分组内容
3、分组之后做累加 map
sortByKey()
1、词频统计按单词排序
sortBy()
1、词频统计按词频排序
RDD写入文本文件