随笔分类 - Spark
SparkSQL
摘要:第一章 SparkSQL 概述 1.1 SparkSQL 是什么 Spark SQL 是Spark 用于结构化数据(structured data)处理的 Spark 模块。 1.2 Hive and SparkSQL SparkSQL 的前身是 Shark,给熟悉RDBMS 但又不理解 MapRe
Spark Streaming
摘要:第一章 SparkStreaming 概述 1.1 Spark Streaming 是什么 Spark 流使得构建可扩展的容错流应用程序变得更加容易。 Spark Streaming 是准实时(秒,分钟)级,微批次(时间)的数据处理架构。 Spark Streaming 用于流式数据的处理。Spar
Spark (三)案例实操
摘要:第零章、前言 在之前的学习中,我们已经学习了 Spark 的基础编程方式,接下来,我们看看在实际的工作中如何使用这些 API 实现具体的需求。这些需求是电商网站的真实需求,所以在实现功能前,咱们必须先将数据准备好。 上面的数据图是从数据文件中截取的一部分内容,表示为电商网站的用户行为数据,主要包含用
Spark (二)核心编程
摘要:第零章、三大数据结构 Spark 计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于处理不同的应用场景。三大数据结构分别是: RDD : 弹性分布式数据集 累加器:分布式共享只写变量 广播变量:分布式共享只读变量 简单的分布式计模型架构: Driver将任务分发给多个Execut
Spark (一)概述、原理、入门
摘要:第一章 Spark 概述 1.1 Spark 是什么 Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。 Spark 最早源于一篇论文 Resilient Distributed Datasets: A Fault-Tolerant A