2018年4月17日

关于spark当中生成的RDD分区的设置情况。

摘要: 问题描述:我们知道在spark当中是对RDD进行操作的。所以我们想把数据源当中的数据转化成很多的数据集,这也就是partition的由来。 而我们在将数据转换成RDD之后。我们可以通过设置partition的数量来让计算的效率更高。 首先来看一下官网创建的RDD的描述: 从这段描述当中我们可以看到。 阅读全文

posted @ 2018-04-17 14:32 gxg123 阅读(465) 评论(0) 推荐(0) 编辑

关于spark当中的reducebykey 和groupbykey两者的区别

摘要: reducebykey:它的特点是当使用它的时候,这个时候在不同的partition 中的数据会进行简单的combiner。然后再在reduce端进行数据的累加。 groupbykey:当采用它的时候。这个时候他不是对不同的partition中的数据进行combiner。而是直接在最后进行数据的累加 阅读全文

posted @ 2018-04-17 11:15 gxg123 阅读(450) 评论(0) 推荐(0) 编辑

导航