11.24日记

11.24日记

前面有提到MapReduce 框架采用非循环式的数据流模型，把中间结果写入到 HDFS 中，带来了大量的数据复制、磁盘 IO 和序列化开销。且这些框架只能支持一些特定的计算模式(map/reduce)，并没有提供一种通用的数据抽象。因此出现了RDD这个概念。

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集，是 Spark 中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合。

RDD单词拆解：

    Resilient ：它是弹性的，RDD 里面的中的数据可以保存在内存中或者磁盘里面；
    Distributed ：它里面的元素是分布式存储的，可以用于分布式计算；
    Dataset: 它是一个集合，可以存放很多元素。

发表于 2023-11-24 22:08 zhangmingmingkjz 阅读(4) 评论(0) 编辑收藏举报

搜索

常用链接

我的标签

随笔档案

阅读排行榜

推荐排行榜