摘要: spark的分区 ​ Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数。 注意 (1)只有Key-Value类型的RDD才有分区器 阅读全文
posted @ 2020-08-05 19:48 来自遥远的水星 阅读(1000) 评论(0) 推荐(0) 编辑
摘要: 在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上,并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的,但是,Spark还是为 阅读全文
posted @ 2020-08-05 19:24 来自遥远的水星 阅读(267) 评论(0) 推荐(0) 编辑