4.RDD操作
一、RDD创建
1.从本地文件系统中加载数据创建RDD
2.从HDFS加载数据创建RDD
启动hdfs
上传文件
查看文件
加载
停止hdfs
3.通过并行集合(列表)创建RDD
输入列表
字符串
numpy生成数组
二、RDD操作
1、转换操作
filter(func)
显式定义函数
lambda函数
2、map(func)
显式定义函数
lambda函数
数字加100
1、显示定义函数
2、lamda函数
字符串加固定前缀
1、显示函数
2、lambda函数
3、flatMap(func)
类似于map,但是每一个输入元素可以被映射为0或多个输出元素(所以func应该返回一个序列,而不是单一元素)
- 分词
2.单词映射成键值对
4、reduceByKey()
按照相同的key,对value进行聚合(求和),在进行计算时要求元素必须时键值对形式的:(Key - Value类型)
1.统计词频,累加
2.乘法规则
5、groupByKey()
- 单词分组
2.查看分组的内容
3.分组之后做累加 map
6、sortByKey()
1.词频统计按单词排序
7、sortBy()
a.词频统计按词频排序
b.查看分区数 getNumPartitions()
c.生成不同分区数的rdd
8、行动操作
foreach(func)——通过函数func(输入两个参数并返回一个值)聚合数据集中的元素
collect()——以数组的形式返回数据集的所有元素
count()——返回数据集中的元素个数
first()——返回数据集中的第一个元素
take(n)——以数组的形式返回数据集中的前n个元素
reduce(func) ——通过函数func(输入两个参数并返回一个值)聚合数据集中的元素