摘要: 1.什么是RDD Resilient Distributed Dataset(RDD),弹性的分布式数据集. 分布式数据集,是指数据集会以patition块的方式,存储在多个节点上. 弹性,体现在Spark计算过程中将数据的抽象封装,依此带来的各种重试机制,内存和磁盘切换,高自由的分片函数等 Had 阅读全文
posted @ 2018-06-28 21:39 NightPxy 阅读(179) 评论(0) 推荐(0) 编辑