4.RDD操作

一、 RDD创建  

  1. 从本地文件系统中加载数据创建RDD

  

  2. 从HDFS加载数据    

    创建RDD

    启动hdfs

  

    上传文件

  

    查看文件

  

    加载

  

    停止hdfs

  

 

 

 

  3. 通过并行集合(列表)创建RDD    

    输入列表

  

    字符串

  

    生成数组

  

 

 

二、 RDD操作

  1. 转换操作    

    map(func)

    显式定义函数

    lambda函数

  

 

   

  flatMap(func)

  1. 分词
  2. 单词映射成键值对

  

 

   

 

   reduceByKey()

  1. 统计词频,累加
  2. 乘法规则

  

 

  groupByKey()

  1. 单词分组
  2. 查看分组的内容
  3. 分组之后做累加 map

  

 

   sortByKey()

  1. 词频统计按单词排序

  

 

   sortBy()

  1. 词频统计按词频排序

  

  2. 查看分区数 getNumPartitions()

  

  3. 生成不同分区数的rdd

  

  RDD写入文本文件

  1. 写入本地文件系统,并查看结果

  

 

   

 

   

  

 

   

  2. 写入分布式文件系统,并查看结果注意分区数与文件数的关系

  

 

   

 

  2.行动操作    

    foreach(print)

    foreach(lambda a:print(a.upper())

  

 

   

    collect()

  

  count()

  take(n)

  reduce() 

  

 

 

 

posted @ 2022-03-16 15:19  不知道我什么名字  阅读(61)  评论(0编辑  收藏  举报