2018 年 8月 17 日随笔档案 - 天添

2018年8月17日

摘要： spark的持久化机制做的相对隐晦一些，没有一个显示的调用入口。首先通过rdd.persist(newLevel: StorageLevel)对此rdd的StorageLevel进行赋值，同checkpoint一样，本身没有进行之久化操作。真正进行持久化操作实在之后的第一个action 中通过it 阅读全文

posted @ 2018-08-17 14:51 天添阅读(1033) 评论(0) 推荐(0) 编辑

spark DiskBlockManager

摘要： RDD本身presist可以是本地存储，本地存储级别的持久化实现方式如下： DiskBlockManager负责管理和维护block和磁盘存储的映射关系，通过blockId作为文件名称，然后如果是多个目录通过blcokId的hash值进行分发。包括创建目录，删除，读取文件，以及一些退出删除文件的机阅读全文

posted @ 2018-08-17 14:34 天添阅读(1162) 评论(0) 推荐(0) 编辑

天添

公告