2020 年 8月 5 日随笔档案 - 来自遥远的水星

2020年8月5日

摘要： spark的分区 Spark目前支持Hash分区和Range分区，用户也可以自定义分区，Hash分区为当前的默认分区，Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数。注意 (1)只有Key-Value类型的RDD才有分区器阅读全文

posted @ 2020-08-05 19:48 来自遥远的水星阅读(1000) 评论(0) 推荐(0) 编辑

Spark(八)【广播变量和累加器】

摘要：在spark程序中，当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时，Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上，并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的，但是，Spark还是为阅读全文

posted @ 2020-08-05 19:24 来自遥远的水星阅读(267) 评论(0) 推荐(0) 编辑