2018 年 4月 17 日随笔档案 - gxg123

2018年4月17日

关于spark当中生成的RDD分区的设置情况。

摘要：问题描述：我们知道在spark当中是对RDD进行操作的。所以我们想把数据源当中的数据转化成很多的数据集，这也就是partition的由来。而我们在将数据转换成RDD之后。我们可以通过设置partition的数量来让计算的效率更高。首先来看一下官网创建的RDD的描述：从这段描述当中我们可以看到。阅读全文

posted @ 2018-04-17 14:32 gxg123 阅读(465) 评论(0) 推荐(0) 编辑

关于spark当中的reducebykey 和groupbykey两者的区别

摘要： reducebykey：它的特点是当使用它的时候，这个时候在不同的partition 中的数据会进行简单的combiner。然后再在reduce端进行数据的累加。 groupbykey：当采用它的时候。这个时候他不是对不同的partition中的数据进行combiner。而是直接在最后进行数据的累加阅读全文

posted @ 2018-04-17 11:15 gxg123 阅读(450) 评论(0) 推荐(0) 编辑

gxg123

关于spark当中生成的RDD分区的设置情况。

关于spark当中的reducebykey 和groupbykey两者的区别

导航

公告