刘淑婷

4.RDD操作

1. RDD创建

  1. 从本地文件系统中加载数据创建RDD
 
图1.1 查看文本信息

 

 
图1.2 本地文件加载数据

 

  1. 从HDFS加载数据创建RDD
 
# 启动HDFS
start-all.sh

# 查看HDFS文件
hdfs dfs -ls 查看的文件目录
  
图2.1 启动HDFS


 
# 上传文件到HDFS
hdfs dfs -put 本地文件路径 HDFS目的路径

# 查看HDFS文件
hdfs dfs -cat 文件名称
 
图2.2 上传/查看文件


 
# HDFS加载数据创建RDD
lines=sc.textFile("hdfs://localhost:9000/user/llc.txt").foreach(print)
图2.3 HDFS加载数据

 

 

 

图2.4 查看HDFS


# 停止hdfs
stop-all.sh
图2.5 停止HDFS

 

  1. 通过并行集合(列表)创建RDD
图3.1 列表/字符串

 

图3.2 生成数组

 

2. RDD操作

转换操作

  1. filter(func)
图1.1 lambda函数

 

  1. map(func)
  • 字符串分词
  • 数字加100
 
  • 字符串加固定前缀
  1. flatMap(func)
  • 分词
  • 单词映射成键值对
 
  1. reduceByKey()
  • 统计词频,累加
  • 乘法法则

 

  1. groupByKey()
  • 单词分组
  1. sortByKey()
  1. sortBy()
  • 词频统计按词频排序
 
  1. RDD写入文本文件
  • 写入本地文件系统,并查看结果
 

行动操作

  1. foreach(print)
  1. foreach(lambda a:print(a.upper()))
  1. collect()
  1. count()
  1. first()
  1. take(n)
  1. reduce()
  • 数值型的rdd元素做累加

 

posted on 2022-03-18 19:16  树亭  阅读(25)  评论(0编辑  收藏  举报

导航