RDD操作

一、 RDD创建

1.从本地文件系统中加载数据创建RDD

print命令要输入from __future__ import print_function

 

 

 

2.从HDFS加载数据创建RDD

启动hdfs

 

 

 上传文件

 

 

 

 查看文件

 

 

 

 加载

 

 

 

 停止hdfs

 

 

 

3.通过并行集合(列表)创建R

数组

 

 

 

 列表

 

 

 字符串

 

 

二、 RDD操作

转换操作  filter(func):筛选出满足函数func的元素,并返回一个新的数据集

显式定义函数,lambda函数

 

 

 

map(func)操作将每个元素传递到函数func中,并将结果返回为一个新的数据集

显式定义函数,lambda函数

1、数字加10

 

2、字符串分词

 3、字符串加固定前缀

 

flatMap(func)

1、分词

 

 2、单词映射成键值对

 

 

reduceByKey()

1、统计词频,累加

 

 

 

 2、乘法规则

 

 

groupByKey()

1、单词分组

 

 2、查看分组内容

 

 3、分组之后做累加 map

 

 

sortByKey()

1、词频统计按单词排序

 

 

sortBy()

1、词频统计按词频排序

 

 RDD写入文本文件

 

posted @ 2022-03-16 15:38  hetianming  阅读(46)  评论(0编辑  收藏  举报