2022-03-30 18:03阅读: 199评论: 0推荐: 0

4.RDD操作

一、 RDD创建

从本地文件系统中加载数据创建RDD

  • sc:SparkContext(shell自动创建)

  • 本地文件系统中加载数据创建RDD

    Spark采用textFile()方法来从文件系统中加载数据创建RDD

    该方法把文件的URI作为参数,这个URI可以是:

    • 本地文件系统的地址

    • 或者是分布式文件系统HDFS的地址

    • 或者是Amazon S3的地址等等

从HDFS加载数据创建RDD

  1. 启动hdfs

  2. 上传文件

  3. 查看文件

  4. spark内加载文件

    textFile默认是读hdfs,所以hdfs可以省略。

    hdfs的默认目录,前三条语句是完全等价的,可以使用其中任意一种方式

    不是默认目录,要还上路径

  5. 停止hdfs

通过并行集合(列表)创建RDD

  • 输入列表、字符串、numpy生成数组

二、 RDD操作

转换操作

  • 对于RDD而言,每一次转换操作都会产生新的RDD,供给下一个“转换”使用

  • 转换得到的RDD是惰性求值的,也就是说,整个转换过程只是记录了转换的轨迹,并不会发生真正的计算,只有遇到行动操作时,才会发生真正的计算,开始从血缘关系源头开始,进行物理的转换操作

操作 含义
filter(func) 筛选出满足函数func的元素,并返回一个新的数据集
map(func) 将每个元素传递到函数func中,并将结果返回为一个新的数据集
flatMap(func) 与map()相似,但每个输入元素都可以映射到0或多个输出结果
groupByKey() 应用于(K,V)键值对的数据集时,返回一个新的(K, Iterable)形式的数据集
reduceByKey(func) 应用于(K,V)键值对的数据集时,返回一个新的(K, V)形式的数据集,其中每个值是将每个key传递到函数func中进行聚合后的结果

filter(func)

  • 显式定义函数

    结果不明显,换个关键词

  • lambda函数

map(func)

  1. 字符串分词

    • 显式定义函数

    • lambda函数

  2. 数字加100

    • 显式定义函数

    • lambda函数

  3. 字符串加固定前缀

    • 显式定义函数

    • lambda函数

flatMap(func)

  1. 分词

  2. 单词映射成键值对

reduceByKey()

  1. 统计词频,累加

  2. 乘法规则

groupByKey()

  1. 单词分组

  2. 查看分组的内容

  3. 分组之后做累加 map

sortByKey()

  1. 词频统计按单词排序

sortBy()

  1. 词频统计按词频排序

行动操作

行动操作是真正触发计算的地方。Spark程序执行到行动操作时,才会执行真正的计算,从文件中加载数据,完成一次又一次转换操作,最终,完成行动操作得到结果。

操作 含义
count() 返回数据集中的元素个数
collect() 以数组的形式返回数据集中的所有元素
first() 返回数据集中的第一个元素
take(n) 以数组的形式返回数据集中的前n个元素
foreach(func) 将数据集中的每个元素传递到函数func中运行
reduce(func) 通过函数func(输入两个参数并返回一个值)聚合数据集中的元素

foreach(func)

  • foreach(print)

  • foreach(lambda a:print(a.upper())

collect()

count()

take(n)

reduce()

  • 数值型的rdd元素做累加

  • 与reduceByKey区别

    reduceByKey(func)应用于(K,V)键值对的数据集时,返回一个新的(K, V)形式的数据集,其中的每个值是将每个key传递到函数func中进行聚合后得到的结果

本文作者:stu(dying)

本文链接:https://www.cnblogs.com/DingyLand/p/homework_04_.html

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   stu(dying)  阅读(199)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示
💬
评论
📌
收藏
💗
关注
👍
推荐
🚀
回顶
收起
🔑
  1. 1 Dancing with my phone (Explicit) HYBS
  2. 2 Catch (Feat. Hwa Sa) Epik High (에픽하이)
  3. 3 건물 사이에 피어난 장미 (Rose Blossom) H1-KEY
  4. 4 The Weekend 88rising,BIBI
  5. 5 天气未报 余佳运
  6. 6 和你 余佳运
  7. 7 九月底 余佳运
  8. 8 POP/STARS K/DA,Madison Beer,(G)I-DLE,Jaira Burns
  9. 9 Uh-Oh (G)I-DLE
  10. 10 For You (G)I-DLE
  11. 11 데이지(雏菊) PENTAGON
  12. 12 BAD PENTAGON
Uh-Oh - (G)I-DLE
00:00 / 00:00
An audio error has occurred, player will skip forward in 2 seconds.

作词 : 田小娟

作曲 : 田小娟/쥰/MooF (153/Joombas)

编曲 : 쥰/MooF (153/Joombas)

Uh-oh 거기 누군가요

Uh-oh 나를 안다고요

Uh-oh 난 잊어버렸죠 버렸죠

너도 웃기지 않나요

난 좀 당황스럽네요

Uh-oh 친한 척 말아줘 말하고 다녀

Uh-uh-oh 만지지 말고 저기 떨어져요

내게 뭐를 원하나요 다 똑같죠 너처럼

너 같은 거는 이제 전혀 모르겠네요

Uh-uh-oh 나 변했나요 다 똑같죠 너처럼

베풀거나 내주거나 천사 같은 Hello

달콤하게 사탕 발린 말도

예의 없어 착한 척 말고 꺼져

이제 와 가식 따위 떨지 말아

맴돌거나 말 걸거나 박쥐 같은 Follower

내 성공을 점쳤다는 Liar

어이없어 친한 척 말고 꺼져

널 위한 가식 따윈 기대 말아

엉망진창 Only see now

몰랐지 오리 속 Swan

황홀한 케이크 위 Blow out

내 머리 위에 Crown

Yo 말했지 이곳의 보석은 나야 투자해 어서

넌 번쩍거린 것만 찾느라

여길 번쩍 들어 올릴 난 못 찾았어

Uh uh uh uh uh uh

No no no no no no

너 별로 더 별로야 됐으니 꺼져

Uh-uh-oh 만지지 말고 저기 떨어져요

내게 뭐를 원하나요 다 똑같죠 너처럼

너 같은 거는 이제 전혀 모르겠네요

Uh-uh-oh 나 변했나요 다 똑같죠 너처럼

베풀거나 내주거나 천사 같은 Hello

달콤하게 사탕 발린 말도

예의 없어 착한 척 말고 꺼져

이제 와 가식 따위 떨지 말아

맴돌거나 말 걸거나 박쥐 같은 Follower

내 성공을 점쳤다는 Liar

어이없어 친한 척 말고 꺼져

널 위한 가식 따윈 기대 말아

Uh-oh 믿을 수 없게

Uh-oh 손댈 수 없게

Uh-oh 잘못된 것 같은 얘기

Yo you got it

Don't mess with me

Umm I'm not finished

Ok let's go

아무도 몰랐지

이 Masterpiece 이 Masterpiece

입가에 반복되는 Melody oh melody

너무나 완벽한 내 A to Z oh A to Z

팬들은 사랑해 Yeah L-O-V-E yeah L-O-V-E

Uh-oh