2017 年 1月 24 日随笔档案 - cyoutetsu

2017年1月24日

摘要： 7.2 Spark运行时架构 Spark集群采用的是主/从结构。在一个Spark集群中，有一个节点负责中央协调，调度各个分布式工作节点。这个中央协调节点被称为驱动器节点，与之对应的工作节点被称为执行器节点。驱动器节点可以和大量的执行器节点进行通信，他们也都作为独立的Java程序运行。 7.2.1 驱阅读全文

posted @ 2017-01-24 20:26 cyoutetsu 阅读(560) 评论(0) 推荐(0) 编辑

（6）Spark编程进阶

摘要： 6.1 简介累加器：用来对信息进行聚合；广播变量：用来高效分发较大的对象 6.2 累加器通常在向Spark传递函数时，可以使用驱动器程序中定义的变量，但是集群中运行的每个人物都会得到这些变量的一份新的副本，更新这些副本的值也不会影响驱动器中的对应变量。Spark的两个共享变量，累加器和广播变量阅读全文

posted @ 2017-01-24 16:19 cyoutetsu 阅读(497) 评论(0) 推荐(0) 编辑

（5）数据读取与保存

摘要： 5.1 文件格式 5.2.1文本文件当我们将一个文本文件读取为RDD时，输入的每一行都会成为RDD的一个元素，也可以将多个完整文本文件一次性读取为一个pair RDD，其中键是文件名，值是文件内容。在Python中读取一个文本文件如果多个输入文件以一个包含数据所有部分的目录的形式出现，可以用两阅读全文

posted @ 2017-01-24 12:00 cyoutetsu 阅读(476) 评论(0) 推荐(0) 编辑

（4）键值对操作

摘要： 4.1动机键值对RDD是Spark中许多操作所需要的常见数据类型。键值对RDD通常用来进行聚合计算。我们一般要先通过一些初始ETL操作来讲数据转化为键值对形式。 Spark为包含键值对类型的RDD提供了一些专有的操作，这些RDD被称为pair RDD，pair RDD是很多程序的构成要素，因为他们阅读全文

posted @ 2017-01-24 10:44 cyoutetsu 阅读(1222) 评论(0) 推荐(0) 编辑

cyoutetsu

公告