RDD操作
一、 RDD创建
1.从本地文件系统中加载数据创建RDD
print命令要输入from __future__ import print_function

2.从HDFS加载数据创建RDD
启动hdfs

上传文件

查看文件

加载

停止hdfs

3.通过并行集合(列表)创建R
数组

列表

字符串

二、 RDD操作
转换操作 filter(func):筛选出满足函数func的元素,并返回一个新的数据集
显式定义函数,lambda函数

map(func)操作将每个元素传递到函数func中,并将结果返回为一个新的数据集
显式定义函数,lambda函数
1、数字加10

2、字符串分词

3、字符串加固定前缀

flatMap(func)
1、分词

2、单词映射成键值对

reduceByKey()
1、统计词频,累加


2、乘法规则

groupByKey()
1、单词分组

2、查看分组内容

3、分组之后做累加 map

sortByKey()
1、词频统计按单词排序

sortBy()
1、词频统计按词频排序

RDD写入文本文件

浙公网安备 33010602011771号