摘要:
spark的持久化机制做的相对隐晦一些,没有一个显示的调用入口。 首先通过rdd.persist(newLevel: StorageLevel)对此rdd的StorageLevel进行赋值,同checkpoint一样,本身没有进行之久化操作。真正进行持久化操作实在之后的第一个action 中通过it 阅读全文
摘要:
RDD本身presist可以是本地存储,本地存储级别的持久化实现方式如下: DiskBlockManager负责管理和维护block和磁盘存储的映射关系,通过blockId作为文件名称,然后如果是多个目录通过blcokId的hash值进行分发。 包括创建目录,删除,读取文件,以及一些退出删除文件的机 阅读全文