2020 年 5月 2 日随笔档案 - abc十号

2020年5月2日

摘要：一、persist 和 unpersist 1.1、persist() : 用来设置RDD的存储级别存储级别意义 MEMORY_ONLY 将RDD作为反序列化的的对象存储JVM中。如果RDD不能被内存装下，一些分区将不会被缓存，并且在需要的时候被重新计算。这是是默认的级别 MEMORY_AND_ 阅读全文

posted @ 2020-05-02 15:44 abc十号阅读(437) 评论(0) 推荐(0) 编辑

spark系列-2、Spark 核心数据结构：弹性分布式数据集 RDD

摘要：一、RDD(弹性分布式数据集) RDD 是 Spark 最核心的数据结构，RDD（Resilient Distributed Dataset）全称为弹性分布式数据集，是 Spark 对数据的核心抽象，也是最关键的抽象，它实质上是一组分布式的 JVM 不可变对象集合，不可变决定了它是只读的，所以 RD 阅读全文

posted @ 2020-05-02 13:19 abc十号阅读(1228) 评论(0) 推荐(0) 编辑

spark系列-1、spark介绍 & wordcount

摘要：一、spark介绍 1.1、spark的特点运行速度快：使用DAG（全称 Directed Acyclic Graph，中文为：有向无环图）执行引擎以支持循环数据流与内存计算（当然也有部分计算基于磁盘，比如shuffle）易用性好：支持使用Scala、Java、Python和R语言进行编程，可阅读全文

posted @ 2020-05-02 00:46 abc十号阅读(293) 评论(0) 推荐(1) 编辑

@zl

公告