第五章_Spark核心编程_什么是Rdd

1. Rdd 是什么?

复制代码

1. RDD(Resilient Distributed DataSet) 弹性分布式数据集, 是Spark中最基本的数据处理模型
    它代表一个弹性的、不可变、可分区、里面的元素可并行计算 的集合

2. 代码中Rdd是 抽象类  abstract class RDD[T: ClassTag]

note :
    1. 怎样理解弹性?
        存储的弹性:内存与磁盘的自动切换
        容错的弹性:数据丢失可以自动恢复
        计算的弹性:计算出错重试机制
        分片的弹性:可根据需要重新分片

    2. 怎样理解分布式?
        数据存储在大数据集群不同节点上

    3. 怎样理解数据集？
        RDD封装了计算逻辑，并不保存数据

    4. 怎样理解数据抽象？
        RDD是一个抽象类，需要子类具体实现

    5. 怎样理解不可变？
        RDD封装了计算逻辑 , 是不可以改变的 ,想要改变 ,只能产生新的RDD在新的 RDD 里面封装计算逻辑

    6. 怎样理解可分区、并行计算？
        Rdd可以分区,分区会分发到不同的节点上执行

复制代码

posted @ 2022-03-21 15:07 学而不思则罔！阅读(139) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· 第五章_Spark核心编程_Rdd算子的分类与定义

· 第五章_Spark核心编程_Rdd五个核心属性

· spark (四) RDD概念

· spark RDD

· 1.23学习进度

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 单线程的Redis速度为什么快？

公告

昵称：学而不思则罔！
园龄： 4年10个月
粉丝： 11
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:第十章 Hive调优【合理设置Map数】
请问这是基于spark引擎还是mapreduce下的讨论呀
--好困sleepy
2. Re:第五章_Spark核心编程_Rdd_转换算子_Value型_glom算子
rdd1.aggregateByKey(0)( (x, y) => { math.max(x, y) }, (x, y) => { x + y } ).collect().foreach(printl...
--API_ZY
3. Re:第五章_Spark核心编程_Rdd_转换算子_Value型_glom算子
123
--API_ZY
4. Re:hive_面试题【打折日期交叉问题】
这题挺绕的，第二种还稍微好理解点儿，第一种完全是数学技巧
--自琢
5. Re:hive_面试题【同时在线问题】
第一种算法逻辑有问题，同时在线的条件可是有4中，但是只能保证和他当时同时在线，不能保证别的用户同时在线，所以，算法的出发点就有问题，算出的结果也没意义。
第二种算发很棒。
--自琢

AI FOR CODE 大赛