Spark权威指南(中文版)----第1章Apache Spark是什么
Spark The Definitive Guide Spark权威指南 中文版。关注公众号,阅读中文版的Spark权威指南,系统学习Spark大数据框架!
Apache Spark是一个统一的分布式内存计算引擎,包括一组用于在计算机集群上进行并行数据处理的函数库。截止目前,Spark已经成为大数据开发人员以及数据科学家的必备工具。Spark支持多种广泛使用的编程语言(Python、Java、Scala和R),包括用于各种计算任务的库:SQL结构化查询到流计算、机器学习。Spark可以运行在PC电脑上,也可以运行在数千台服务器的集群上。
图1-1说明了提供给最终用户的所有组件和库。
你会注意到这些类别大致对应于本书的不同部分。这并不奇怪;我们的目标是让您了解Spark的各个方面,同时也说明了,Spark是由许多不同的组件组成的。
考虑到您正在阅读这本书,您可能已经了解了一些关于Apache Spark的知识和它能做什么。尽管如此,在这一章中,我们想简单介绍一下Spark背后的主要理念以及Spark产生的环境 (为什么每个人都突然对并行数据处理感到兴奋?)和它的历史。我们还将概述运行Spark的前几个步骤。
1.1. Apache Spark的哲学
让我们对Apache Spark的各个关键部分进行分别描述。
统一
Spark的关键驱动目标是为编写大数据应用程序提供一个统一的平台。统一是什么意思? Spark的设计目的是支持广泛的数据分析任务,从简单的数据加载和SQL查询到机器学习和流计算,这些都通过相同的计算引擎和一致的api集合实现。这一目标背后的主要见解是,现实世界的数据分析任务——无论它们是工具中的交互式分析,还是用于生产应用程序的传统软件开发——都倾向于结合许多不同的处理引擎类型和库。
Spark的统一特性使得这些任务的编写更加简单和高效。首先,Spark提供了一致的、可组合的api,您可以使用这些api从较小的部分或现有的库中构建应用程序。它还使您可以轻松地基于这些API编写自己的分析库。然而,可组合的api是不够的: Spark的api也被设计为通过优化在用户程序中组合的不同库和函数来实现高性能。例如,如果您使用SQL查询加载数据,然后使用Spark的ML库评估机器学习模型,那么Spark计算引擎可以将这些步骤合并到一个步骤中,来扫描数据。通用api和高性能执行的结合,无论您如何组合它们,都使Spark成为交互式和生产应用程序的强大平台。
Spark专注于定义一个统一的平台,这与其他软件领域的统一平台的想法是一致的。例如,当进行建模时,数据科学家受益于一组统一的库(例如,Python或R),而web开发人员则受益于诸如Node.js这样的统一框架. 在Spark之前,没有一个开源系统试图提供这种类型的统一引擎来进行并行数据处理,这意味着用户应用程序中需要整合多个api来完成一项任务。因此,Spark很快成为了这种类型开发的标准。随着时间的推移,Spark继续扩展其内置的api,以覆盖更多的工作任务。与此同时,该项目的开发人员继续完善其统一引擎的主题。特别是,本书的一个重点将是在Spark 2.0中提供的“structured api”(DataFrames、dataset和SQL),structured api提供了在用户应用程序下进行更强大的优化。
计算引擎
Spark在打造一个统一平台的同时,它小心地将其范围限制在计算引擎上。(有所为有所不为)意思是,Spark处理从存储系统加载数据并在其上执行计算,但最终数据并不永久存储在Spark中。Spark可以和多种存储系统结合使用,如Kafka、HBase、Hive、HDFS以及关系型数据库。这样做的原因是,大多数数据已经存在于现有存储系统中。数据移动成本非常昂贵,所以Spark关注于对数据进行计算,不管数据在哪里。在面向用户的api中,Spark努力使这些存储系统看起来非常相似,因此应用程序不必担心数据的位置。
Spark对计算的关注使得它有别于早期的大数据软件平台,比如Apache Hadoop。Hadoop包括一个存储系统(Hadoop文件系统HDFS,用低成本的商品服务器集群做存储)和一个紧密集成的计算引擎(MapReduce)。Hadoop这种设计在某些场景下会出现难以抉择的问题,如:如果只使用计算引擎MapReduce,而不使用存储HDFS,此时无法割裂两者,只能同时安装。
尽管Spark在Hadoop存储上运行得很好,但今天它在没有Hadoop的环境中也广泛使用。如Spark+kafka联合起来,进行流处理。
函数库
Spark的最终组件是它的库,它以统一引擎的设计为基础,为公共数据分析任务提供统一的API。Spark既支持使用内置的标准库,也支持由开源社区发布为第三方包的大量外部库。如今,Spark的标准库实际上是Spark开源项目的主要部分: Spark 核心计算引擎自发布以来几乎没有变化, 但是,函数库已经提供了越来越多的功能类型。Spark包括用于SQL和结构化数据的库(Spark SQL)、机器学习(MLlib)、流处理(Spark流和新的结构化流处理Structured Streaming)和图形分析(GraphX)。除了这些库之外,还有数百个开放源代码的外部库,从各种存储系统的连接器到机器学习算法。在spark-packages.org上有一个外部库索引。
1.2. Spark产生的背景:大数据问题
为什么我们首先需要一个新的引擎和编程模型来进行数据分析? 与计算机的许多趋势一样,这是由于计算机应用程序和硬件构成的经济因素发生了变化。
随着处理器速度的提升,计算机的运行速度也在增加:因此,应用程序每年也会自动变得更快,而不需要对代码进行任何修改。随着时间的推移,这种趋势导致了一个庞大而成熟的应用程序生态系统,其中大部分应用程序都设计为只在单个处理器上运行。这些应用程序采用了改进的处理器速度的趋势,以便随着时间的推移扩展到更大的计算和更大的数据量。
不幸的是,这种硬件的趋势在2005年左右停止了: 由于在散热方面的严格限制,硬件开发人员停止让单个处理器的速度更快,转而使用相同的速度增加更多的并行CPU内核。这种变化意味着需要修改应用程序以增加并行性,以便更快地运行,这为新的编程模型(如Apache Spark)创造了舞台。
与此同时,存储成本也在下降,可以获得的数据量在增加,如随着互联网的发展,视频数据、图像数据随处可见。最终结果是,搜集了大数据量的内容,处理这些内容需要大的、并行度高的计算引擎,通常需要运行在集群之上。
此外,过去50年开发的软件不能自动伸缩,传统的数据处理程序的编程模型也不能满足新的编程模型的需求。
Apache Spark就是为当前这个环境而生的。
1.4. Spark的现在和未来
Spark已经存在了许多年,仍然是当前最流行的大数据计算框架,使用Spark的公司和项目都在不断增加。Spark本身也在不断改进,新功能不断增加,例如,2016年引入了一种新的高级流处理引擎,即Structured Streaming结构化流处理。
Spark将继续成为在可预见的未来进行大数据分析的公司的基石,尤其是考虑到该项目仍在快速发展。任何需要解决大数据问题的数据科学家或工程师都可能需要在他们的机器上安装一个Spark。
1.5. 运行Spark
本课程包含大量的与spark相关的代码,并且很重要的一点是,您需要在学习过程中运行它。在大多数情况下,您需要交互式地运行代码,以便可以进行试验。
您可以使用Python、Java、Scala、R或SQL与Spark进行交互。Spark本身是用Scala编写的,并在Java虚拟机(JVM)上运行,因此在您的笔记本或集群上运行Spark,您所需要的只是安装Java环境。如果您想要使用Python API,您还需要一个Python解释器(版本2.7或更高版本)。如果你想使用R,你需要在你的机器上安装R语言环境。
有两种选择,我们建议开始使用Spark: 在您的笔记本电脑上下载并安装Apache Spark。或者在Databricks Community Edition中运行基于web的版本,这是一个学习Spark的免费云环境,其中包含了本书中的代码。我们接下来解释这两个选项。
1.5.1. 下载Spark到本地
如果您想在本地下载并运行Spark,第一步是确保您的机器上安装了Java(可用Java),以及Python版本,如果您想使用Python的话。接着,打开Spark官方网站http://spark.apache.org/downloads.html,选择安装包的版本和类型”Pre-built for Hadoop 2.7 and later”,然后点击下载链接。此时会下载一压缩包文件,需要加压它。这本书的大部分是用Spark 2.2编写的,所以下载版本2.2或以后应该是一个很好的起点。
1.5.1.1. 为Hadoop集群下载对应的Spark。
Spark可以在本地运行,不需要任何分布式存储系统,比如Apache Hadoop。但是,如果您想将您的笔记本上的Spark版本连接到Hadoop集群,请确保您下载了该Hadoop版本对应的Spark版本。我们在后面的章节中讨论了Spark是如何在集群和Hadoop文件系统上运行的,但是现在我们建议在您的笔记本上运行Spark。
1.5.1.2. 从源代码构建Spark
我们不会在书中介绍这一点,但是您也可以从源代码构建和配置Spark。您可以在ApacheSpark下载页面上选择一个源代码包,以获取源代码,并按照README文件中的说明进行构建。
在您下载了Spark之后,您将希望打开一个命令行提示符并提取该包。在我们的例子中,我们安装了Spark 2.2。下面是一个代码片段,您可以在任何unix风格的命令行上运行,以解压缩从Spark下载的文件并进入解压后的目录:
cd ~/Downloads
tar -xf spark-2.2.0-bin-hadoop2.7.tgz
cd spark-2.2.0-bin-hadoop2.7.tgz
注意,Spark在项目中有大量的目录和文件。不要被吓倒!这些目录中的大多数只有在您阅读源代码时才有意义。下一节将讨论最重要的方向——让我们启动Spark的控制台以进行交互使用。
1.5.2. 启动Spark交互式控制台
您可以在Spark中为几种不同的编程语言启动交互式shell。本书的大部分内容是用Python、Scala和SQL编写的;因此,这些是我们推荐的出发点。
1.5.2.1. 启动Python控制台
为了启动Python控制台,您需要安装Python 2或3。从Spark的主目录,运行以下代码:
./bin/pyspark
完成之后,输入“spark”并按Enter键。您将看到打印的SparkSession对象,我们将在第2章中介绍它。
1.5.2.2. 启动Scala控制台
要启动Scala控制台,您需要运行以下命令:
./bin/spark-shell
完成之后,输入“spark”并按Enter键。与在Python控制台中看到的一样,您将看到SparkSession对象,我们将在第2章中介绍它。
1.5.2.3. 启动SQL控制台
本书的部分内容将涵盖大量的Spark SQL。对于那些,您可能想要启动SQL控制台。在我们讨论了这些主题之后,我们将重新讨论一些更相关的细节。
./bin/spark-sql
1.5.2.4. 在这本书中使用的数据
在本书中,我们将使用一些数据源作为示例。如果您想在本地运行代码,可以从本书的官方代码库中下载这些代码。简而言之,您将下载数据,将其放入一个文件夹中,然后在本书中运行代码片段!