Spark分区

一、如果某一个新的RDD产生的分区数，是从父RDD继承过来的。分区是RDD中的一部分数据（如果只有一个分区的话，那么就是全部）

二、怎么知道某一个 RDD有多少个分区？

makeRdd.getNumPartitions

三、如何设置RDD的分区？

1、在sparkConf当中设置setMaster中的值，可以改变RDD中的分区数
local 表示采用一个分区
local[2] 表示采用2个分区数
local[*] 以当前电脑的CPU核数来决定
注意：在创建RDD的时候设定的分区级别大于在setMaster设置的分区值
2、在创建RDD的时候，直接指定RDD的分区数
例如：val unit = sc.makeRDD(1.to(10),9) 9表示创建RDD时给的分区数
3、通过repartition修改某个RDD的值
val unit2 = sc.makeRDD(1.to(10)).repartition(3)
4、自定义分区【spark自定义分区】

注意：

注：在使用某一个文件夹或很多小文件时，会采用：如果最开始没有指定任何分区：
如果是从文件夹中读出的话，那么会将一个文件作为一个分区
如果从HDFS中读出的话，那么会将一个块作为一个分区
如果某一个RDD产生的分区值的数据太少，那么在子RDD中，可以将分区数减少
分区数会被spark对应成Task任务，也就是分区数越多，那么处理的速度会变

posted @ 2019-04-08 11:04 xiaolaotou 阅读(353) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

xiaolaotou

Spark分区

公告