RDD

RDD：弹性分布式数据集，是spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。

五大特性：

　　—分区列表，RDD中的数据都存在一个分区列表里面

　　—作用在每一个分区中的函数

　　—RDD依赖于其他多个RDD

　　—Partitioner针对KV类型的RDD

　　—数据本地性，数据位置最优

posted @ 2018-09-16 13:20 再见、梦想阅读(221) 评论(0) 编辑收藏举报

刷新页面返回顶部