摘要: 7.2 Spark运行时架构 Spark集群采用的是主/从结构。在一个Spark集群中,有一个节点负责中央协调,调度各个分布式工作节点。这个中央协调节点被称为驱动器节点,与之对应的工作节点被称为执行器节点。驱动器节点可以和大量的执行器节点进行通信,他们也都作为独立的Java程序运行。 7.2.1 驱 阅读全文
posted @ 2017-01-24 20:26 cyoutetsu 阅读(560) 评论(0) 推荐(0) 编辑
摘要: 6.1 简介 累加器:用来对信息进行聚合; 广播变量:用来高效分发较大的对象 6.2 累加器 通常在向Spark传递函数时,可以使用驱动器程序中定义的变量,但是集群中运行的每个人物都会得到这些变量的一份新的副本,更新这些副本的值也不会影响驱动器中的对应变量。Spark的两个共享变量,累加器和广播变量 阅读全文
posted @ 2017-01-24 16:19 cyoutetsu 阅读(497) 评论(0) 推荐(0) 编辑
摘要: 5.1 文件格式 5.2.1文本文件 当我们将一个文本文件读取为RDD时,输入的每一行都会成为RDD的一个元素,也可以将多个完整文本文件一次性读取为一个pair RDD,其中键是文件名,值是文件内容。 在Python中读取一个文本文件 如果多个输入文件以一个包含数据所有部分的目录的形式出现,可以用两 阅读全文
posted @ 2017-01-24 12:00 cyoutetsu 阅读(476) 评论(0) 推荐(0) 编辑
摘要: 4.1动机 键值对RDD是Spark中许多操作所需要的常见数据类型。键值对RDD通常用来进行聚合计算。我们一般要先通过一些初始ETL操作来讲数据转化为键值对形式。 Spark为包含键值对类型的RDD提供了一些专有的操作,这些RDD被称为pair RDD,pair RDD是很多程序的构成要素,因为他们 阅读全文
posted @ 2017-01-24 10:44 cyoutetsu 阅读(1222) 评论(0) 推荐(0) 编辑