4.RDD操作
------------恢复内容开始------------
一、 RDD创建
1.从本地文件系统中加载数据创建RDD
2.从HDFS加载数据创建RDD
2.1启动hdfs
2.2上传、查看文件
2.3加载
2.4停止hdfs
3、通过并行集合(列表)创建RDD
输入列表
字符串
numpy生成数组
二、 RDD操作
1.filter(func) 显式定义函数 lambda函数
2.map(func)
显式定义函数
lambda函数:字符串分词, 数字加100 ,客串加固定前缀
3.flatMap(func)
分词,单词映射成键值对
4.reduceByKey()
统计词频,累加,乘法规则
5.groupByKey()
单词分组,查看分组的内容,分组之后做累加 map
6.sortByKey()
词频统计按单词排序
行动操作
1.foreach(print)
foreach(lambda a:print(a.upper())
2.collect()
3.count() ----返回数据集中的元素个数
4.first() ----返回数据集中的第一个元素
5.take(n) ----以数组的形式返回数据集中的前n个元素
6.reduce() ----通过函数func(输入两个参数并返回一个值)聚合数据集中的元素
- 数值型的rdd元素做累加