热心网友小鹏

导航

4.RDD操作

一、 RDD创建

1.从本地文件系统中加载数据创建RDD

2.从HDFS加载数据创建RDD

  1.启动hdfs

  2.上传、查看文件

  3.加载

  4.停止hdfs

3.通过并行集合(列表)创建RDD;输入列表、字符串、numpy生成数组 。

 

 

 

 

 

二、 RDD操作

转换操作

1.filter(func)   显式定义函数  lambda函数

2.map(func) 显式定义函数  lambda函数

 

3.flatMap(func)

4.reduceByKey()

5. groupByKey()

 6.sortByKey()

 

 7.sortBy()

8.RDD写入文本文件

 

行动操作

foreach(print)

foreach(lambda a:print(a.upper())

collect()

 

posted on 2022-03-22 09:30  热心网友小鹏  阅读(29)  评论(0编辑  收藏  举报