2018年8月13日

摘要: 分区是rdd的一个属性,每个分区是一个迭代器 分区器是决定数据数据如何分区 RDD划分成许多分区分布到集群的节点上,分区的多少涉及对这个RDD进行并行计算的粒度。用户可以获取分区数和设置分区数目,默认分区数为程序分配到的CPU核数。 spark中,RDD计算是以分区为单位的,而且计算函数都是在对迭代 阅读全文

posted @ 2018-08-13 14:35 打杂滴 阅读(203) 评论(0) 推荐(0) 编辑


Copyright © 2024 打杂滴
Powered by .NET 8.0 on Kubernetes