摘要: 一、persist 和 unpersist 1.1、persist() : 用来设置RDD的存储级别 存储级别 意义 MEMORY_ONLY 将RDD作为反序列化的的对象存储JVM中。如果RDD不能被内存装下,一些分区将不会被缓存,并且在需要的时候被重新计算。这是是默认的级别 MEMORY_AND_ 阅读全文
posted @ 2020-05-02 15:44 abc十号 阅读(437) 评论(0) 推荐(0) 编辑
摘要: 一、RDD(弹性分布式数据集) RDD 是 Spark 最核心的数据结构,RDD(Resilient Distributed Dataset)全称为弹性分布式数据集,是 Spark 对数据的核心抽象,也是最关键的抽象,它实质上是一组分布式的 JVM 不可变对象集合,不可变决定了它是只读的,所以 RD 阅读全文
posted @ 2020-05-02 13:19 abc十号 阅读(1228) 评论(0) 推荐(0) 编辑
摘要: 一、spark介绍 1.1、spark的特点 运行速度快:使用DAG(全称 Directed Acyclic Graph, 中文为:有向无环图)执行引擎以支持循环数据流与内存计算(当然也有部分计算基于磁盘,比如shuffle) 易用性好:支持使用Scala、Java、Python和R语言进行编程,可 阅读全文
posted @ 2020-05-02 00:46 abc十号 阅读(293) 评论(0) 推荐(1) 编辑