摘要: RDD 的介绍: 1,一组分片。数据集的基本单位,每个分片都被一个计算任务进行处理,相当于集群分节点。默认是CPU的 core数,创建RDD过程可以指定分片数量 2,一个计算每个分区的函数,RDD之中计算是按照分片为单位的,每一个分片都会实现computer函数来达到这个目的 3,RDD的每一次转换都生成一个新的RDD,所以RDD之间形成流水线的前后依赖,如果RDD丢失,完全可以... 阅读全文
posted @ 2019-03-12 08:06 十七楼的羊 阅读(193) 评论(0) 推荐(0) 编辑