RDD操作

一、 RDD创建

1、从本地文件系统中加载数据创建RDD

 

 

 

2、从HDFS加载数据创建RDD

  启动hdfs

 

 

上传文件

 

 

 

 

 查看文件

 

 

加载

 

 

 

停止hdfs

 

 

3、通过并行集合(列表)创建RDD

  输入列表

 

 

  字符串

 

 

 

numpy生成数组

  若没有装numpy库,需先执行以下命令再继续操作

sudo apt install python3-pip
pip install numpy
pip install nose

 

 

二、 RDD操作

  转换操作

  1、map(func)

  显式定义函数

  lambda函数

2、collect()

 

 

2、filter(func)

  显式定义函数

  lambda函数

 

 

行动操作

  1、foreach(print)

    foreach(lambda a:print(a.upper())

2。collect():

 

 

 

 

posted @ 2022-03-21 14:51  李名彬  阅读(79)  评论(0)    收藏  举报