摘要: 11.1 概述 MLlib的设计理念非常简单,把数据以RDD的形式表示,然后分布式数据集上调用各种算法。 需要注意的是,MLlib中只包含能够在集群上运行良好的并行算法。有些经典的机器学习算法没有包含在其中,就是因为他们不嗯给你并行执行。相反地,一些较新的研究得出的算法因为适用于集群,也被包含在ML 阅读全文
posted @ 2017-01-26 16:42 cyoutetsu 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 许多应用需要即时处理收到的数据,Spark Streaming是Spark为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的API来编写流式计算应用,这样就可以大量重用批处理应用的技术甚至代码。 阅读全文
posted @ 2017-01-26 16:30 cyoutetsu 阅读(131) 评论(0) 推荐(0) 编辑
摘要: 9.1 连接Spark SQL Apache Hive是Hadoop上SQL的引擎,Spark SQL编译时可以包含Hive支持,也可以不包含。如果你不能引入Hive依赖,那就应该使用工件spark-sql-2.10来替代spark-hive-2.10。 9.2 在应用中使用Spark SQL 要以 阅读全文
posted @ 2017-01-26 16:24 cyoutetsu 阅读(450) 评论(0) 推荐(0) 编辑
摘要: 8.1 使用SparkConf配置Spark Spark中最主要的配置机制是用过SparkConf类对Spark进行配置,当创建出一个SparkContext时,就需要创建出一个SparkConf的实例。 在Python中使用SparkConf创建一个应用 Spark中的每个配置选项都是基于字符串形 阅读全文
posted @ 2017-01-25 16:56 cyoutetsu 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 7.2 Spark运行时架构 Spark集群采用的是主/从结构。在一个Spark集群中,有一个节点负责中央协调,调度各个分布式工作节点。这个中央协调节点被称为驱动器节点,与之对应的工作节点被称为执行器节点。驱动器节点可以和大量的执行器节点进行通信,他们也都作为独立的Java程序运行。 7.2.1 驱 阅读全文
posted @ 2017-01-24 20:26 cyoutetsu 阅读(560) 评论(0) 推荐(0) 编辑
摘要: 6.1 简介 累加器:用来对信息进行聚合; 广播变量:用来高效分发较大的对象 6.2 累加器 通常在向Spark传递函数时,可以使用驱动器程序中定义的变量,但是集群中运行的每个人物都会得到这些变量的一份新的副本,更新这些副本的值也不会影响驱动器中的对应变量。Spark的两个共享变量,累加器和广播变量 阅读全文
posted @ 2017-01-24 16:19 cyoutetsu 阅读(497) 评论(0) 推荐(0) 编辑
摘要: 5.1 文件格式 5.2.1文本文件 当我们将一个文本文件读取为RDD时,输入的每一行都会成为RDD的一个元素,也可以将多个完整文本文件一次性读取为一个pair RDD,其中键是文件名,值是文件内容。 在Python中读取一个文本文件 如果多个输入文件以一个包含数据所有部分的目录的形式出现,可以用两 阅读全文
posted @ 2017-01-24 12:00 cyoutetsu 阅读(476) 评论(0) 推荐(0) 编辑
摘要: 4.1动机 键值对RDD是Spark中许多操作所需要的常见数据类型。键值对RDD通常用来进行聚合计算。我们一般要先通过一些初始ETL操作来讲数据转化为键值对形式。 Spark为包含键值对类型的RDD提供了一些专有的操作,这些RDD被称为pair RDD,pair RDD是很多程序的构成要素,因为他们 阅读全文
posted @ 2017-01-24 10:44 cyoutetsu 阅读(1222) 评论(0) 推荐(0) 编辑
摘要: 1.RDD基础 弹性分布式数据集,简称RDD,是一个不可变的分布式对象集合。在Spark中,对数据的所有操作不外乎创建RDD,转化已有RDD以及调用RDD操作进行求值。 每一个RDD都被分为多个分区,这些分区运行在集群中的不同节点上,RDD可以包含Python,Java,Scala中任意类型的对象, 阅读全文
posted @ 2017-01-23 23:03 cyoutetsu 阅读(356) 评论(0) 推荐(0) 编辑
摘要: 2.1 Spark核心概念简介 驱动器程序通过一个SparkContext对象来访问Spark。这个对象代表对计算集群的一个连接。shell启动时已经创建了一个SparkContext对象,是一个叫做sc的变量。一旦有了SparkContext,你就可以用它来创建RDD。要执行这些操作,驱动器程序一 阅读全文
posted @ 2017-01-23 16:27 cyoutetsu 阅读(280) 评论(0) 推荐(0) 编辑