2019 年 8月 13 日随笔档案 - Transkai

2019年8月13日

Spark RDD持久化原理+共享变量原理（Broadcast Variable和Accumulator）

摘要： 2.4 RDD 持久化 2.4.1 RDD 的缓存 Spark 速度非常快的原因之一，就是在不同操作中可以在内存中持久化或缓存个数据集。当持久化某个 RDD 后，每一个节点都将把计算的分片结果保存在内存中，并在对此 RDD 或衍生出的 RDD 进行的其他动作中重用。这使得后续的动作变得更加迅速。RD 阅读全文

posted @ 2019-08-13 17:21 Transkai 阅读(665) 评论(0) 推荐(0) 编辑

Spark RDD工作原理详解+RDD JAVA API编程

摘要：第1章 RDD 概念 1.1 RDD 为什么会产生 RDD：Resilient Distributed Dataset 弹性分布式数据集 RDD 是 Spark 的基石，是实现 Spark 数据处理的核心抽象。那么 RDD 为什么会产生呢？ Hadoop 的 MapReduce 是一种基于数据集的工阅读全文

posted @ 2019-08-13 16:22 Transkai 阅读(1235) 评论(0) 推荐(0) 编辑

Spark 程序设计详解

摘要：一、 Spark角色介绍 Spark是基于内存计算的大数据并行计算框架。因为其基于内存计算，比Hadoop中MapReduce计算框架具有更高的实时性，同时保证了高效容错性和可伸缩性。从2009年诞生于AMPLab到现在已经成为Apache顶级开源项目，并成功应用于商业集群中，学习Spark就需要了阅读全文

posted @ 2019-08-13 15:17 Transkai 阅读(375) 评论(0) 推荐(0) 编辑

Transkai

公告