4.RDD操作

------------恢复内容开始------------

一、 RDD创建

1.从本地文件系统中加载数据创建RDD

 

 

 

 

 

 

2.从HDFS加载数据创建RDD

  2.1启动hdfs

 

 

 

 2.2上传、查看文件

 

 

 

 

 2.3加载

 

 

 

2.4停止hdfs

 

 

 

3、通过并行集合(列表)创建RDD

输入列表

 

 

 

字符串

 

numpy生成数组

 

二、 RDD操作

1.filter(func)  显式定义函数  lambda函数

2.map(func)
显式定义函数
lambda函数:字符串分词, 数字加100  ,客串加固定前缀

3.flatMap(func)

分词,单词映射成键值对

4.reduceByKey()

统计词频,累加,乘法规则

5.groupByKey()

单词分组,查看分组的内容,分组之后做累加 map

6.sortByKey()

词频统计按单词排序

 

行动操作

1.foreach(print)

 

 

 


foreach(lambda a:print(a.upper()) 

 

 

 

 

 

 

2.collect() 

 

 

 

 

3.count() ----返回数据集中的元素个数

 

 

4.first() ----返回数据集中的第一个元素

 

5.take(n) ----以数组的形式返回数据集中的前n个元素

 

 

6.reduce() ----通过函数func(输入两个参数并返回一个值)聚合数据集中的元素

  • 数值型的rdd元素做累加

 

posted @ 2022-03-26 23:05  Fat_Chan  阅读(42)  评论(0编辑  收藏  举报