摘要: RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个可分区,不可变,里面的元素可并行计算的结合。RDD具有自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显示地将工作集换存在内存中,后续的查询能够重用工作集 阅读全文
posted @ 2020-07-06 15:25 喜讯XiCent 阅读(197) 评论(0) 推荐(0) 编辑