摘要: SparkRDD简介/常用算子/依赖/缓存 RDD简介 RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD是一个类 RDD的属性 1.一个列表,存储存取每个Partitio 阅读全文
posted @ 2017-09-27 09:56 LSPZ 阅读(666) 评论(0) 推荐(0) 编辑