导航

2020年12月5日

摘要: 累加器:分布式共享只写变量 1. 把Executor端的信息聚合到Driver端 2. 在Driver程序中定义的变量,在Executor端的每个Task都会得到这个变量的新的副本 每个task更新副本的值之后,传回Driver端进行merge(合并) 3.原理类似于mapreduce,分布式改变, 阅读全文

posted @ 2020-12-05 21:10 乔伊_413 阅读(555) 评论(0) 推荐(0) 编辑

摘要: RDD的cache缓存 -如果一个RDD需要重复使用,那么需要从头再次执行来获取数据 -RDD对象可以重用,但是数据不可以重用 -RDD通过Cache或者Persist方法讲前面计算的结果缓存,把数据以缓存在JVM的堆内存中 -但是并不是这两方法被调用时立即缓存,而是触发后面的action算子时,该 阅读全文

posted @ 2020-12-05 20:48 乔伊_413 阅读(273) 评论(0) 推荐(0) 编辑