摘要: 2.4 RDD 持久化 2.4.1 RDD 的缓存 Spark 速度非常快的原因之一,就是在不同操作中可以在内存中持久化或缓存个数据集。当持久化某个 RDD 后,每一个节点都将把计算的分片结果保存在内存中,并在对此 RDD 或衍生出的 RDD 进行的其他动作中重用。这使得后续的动作变得更加迅速。RD 阅读全文
posted @ 2019-08-13 17:21 Transkai 阅读(665) 评论(0) 推荐(0) 编辑
摘要: 第1章 RDD 概念 1.1 RDD 为什么会产生 RDD:Resilient Distributed Dataset 弹性分布式数据集 RDD 是 Spark 的基石,是实现 Spark 数据处理的核心抽象。那么 RDD 为什么会产生呢? Hadoop 的 MapReduce 是一种基于数据集的工 阅读全文
posted @ 2019-08-13 16:22 Transkai 阅读(1235) 评论(0) 推荐(0) 编辑
摘要: 一、 Spark角色介绍 Spark是基于内存计算的大数据并行计算框架。因为其基于内存计算,比Hadoop中MapReduce计算框架具有更高的实时性,同时保证了高效容错性和可伸缩性。从2009年诞生于AMPLab到现在已经成为Apache顶级开源项目,并成功应用于商业集群中,学习Spark就需要了 阅读全文
posted @ 2019-08-13 15:17 Transkai 阅读(375) 评论(0) 推荐(0) 编辑