摘要:
BlockManager负责数据存储管理,原理图如下 相关代码在org.apache.spark.storage,BlockManagerMaster,BlockManagerMasterActor,主要是负责管理blockManager的映射 /* * Licensed to the Apache
阅读全文
posted @ 2020-05-18 22:45
清浊
阅读(349)
推荐(0)
编辑
摘要:
第一个特点, 在Spark早期版本中,那个bucket缓存是非常非常重要的,因为需要将一个ShuffleMapTask所有的数据都写入内存缓存之后,才会刷新到磁盘。但是这就有一个问题,如果map side数据过多,那么很容易造成内存溢出。所以spark在新版本中,优化了,默认那个内存缓存是100kb
阅读全文
posted @ 2020-05-18 22:12
清浊
阅读(487)
推荐(0)
编辑