4.RDD操作

 一、RDD创建

1.从本地文件系统中加载数据创建RDD

 

 

 

 2.从HDFS加载数据创建RDD

  启动hdfs
  上传文件
  查看文件
  加载
  停止hdfs

 

 

 

 

 

3.通过并行集合(列表)创建RDD

  输入列表
  字符串
  numpy生成数组

 

 

 二、RDD操作

1、转换操作

  filter(func)

  显式定义函数


  lambda函数

 

 

2、map(func)

 显式定义函数


 lambda函数

 

 

数字加100

1、显示定义函数

 

2、lamda函数

 

 

字符串加固定前缀

1、显示函数

 

2、lambda函数

 

3、flatMap(func)

类似于map,但是每一个输入元素可以被映射为0或多个输出元素(所以func应该返回一个序列,而不是单一元素)

  1. 分词

 

  2.单词映射成键值对

 

 

4、reduceByKey()

按照相同的key,对value进行聚合(求和),在进行计算时要求元素必须时键值对形式的:(Key - Value类型)

  1.统计词频,累加

 

  2.乘法规则

 

5、groupByKey()

  1. 单词分组

 

  2.查看分组的内容

 

  3.分组之后做累加 map

 

6、sortByKey()

  1.词频统计按单词排序

 

7、sortBy()

  a.词频统计按词频排序

  b.查看分区数 getNumPartitions()

  c.生成不同分区数的rdd

 

8、行动操作

 

foreach(func)——通过函数func(输入两个参数并返回一个值)聚合数据集中的元素

collect()——以数组的形式返回数据集的所有元素

count()——返回数据集中的元素个数

first()——返回数据集中的第一个元素

 take(n)——以数组的形式返回数据集中的前n个元素

reduce(func) ——通过函数func(输入两个参数并返回一个值)聚合数据集中的元素

 

 

 

 

posted @ 2022-03-16 15:30  粉柠檬  阅读(76)  评论(0编辑  收藏  举报