关于spark当中生成的RDD分区的设置情况。
摘要:
问题描述:我们知道在spark当中是对RDD进行操作的。所以我们想把数据源当中的数据转化成很多的数据集,这也就是partition的由来。 而我们在将数据转换成RDD之后。我们可以通过设置partition的数量来让计算的效率更高。 首先来看一下官网创建的RDD的描述: 从这段描述当中我们可以看到。 阅读全文
posted @ 2018-04-17 14:32 gxg123 阅读(465) 评论(0) 推荐(0) 编辑