spark 教程四 spark的 Action操作

1.collect()

在驱动程序中，以数组的形式，返回数据集的所有元素

在hdfs//datas/motto 文件中存入文本 “家道穷必乘, 比受之以暌, 暌者, 乘也, 乘必有难, 必受之以蹇, 蹇者难也。” 加载到spark 驱动器里然后collect ，发现返回的是一个数组

2.count()

返回数据集的元素的个数

接着上面的例子做一个测试，用count 返回

3.first()

返回数据集的第一个元素类似于take（1）

4.reduce(func)

通过func 函数接收两个参数返回一个参数，聚集数据中的所有元素

5.saveAsTextFile(path)

将数据集的元素，以textfile的形式，保存在本地文件系统，HDFS或者任何的其他hadoo支持的文件系统。对弈每个元素，spark将会调用toString方法，将它转换为文件中的文本行。

6.saveAsSequenceFile(path)

将数据集中的元素，以Hadoop sequencefile的格式，保存到指定的目录下，本地系统HDFS或者其他hadoop文件系统，这个只限于Key-Value格式，实现了hadoop 的Writable接口，或者隐式的可以转换为writable的RDD。（Spark包括了基本类型的转换，例如，Int，Double，String 等）

7.saveAsObjectFile(path)

将数据集元素写入java序列化的可以被SparkContext.objectFile()加载的简单格式中

8.take(n)

返回一个有数据集的前n个元素组成的数组。注意这个操作母线比鞥费运行执行，二十由驱动程序计算所有的元素

9.countByKey()

对（K,V）类型有效，返回一个（K，Int）对的map，表示一个key对应的元素个数

10.foreach（func）

在数据集的每一个元素上，运行函数func进行更新，这通常用于边缘效果，列入更新一个累加器，或者和外部存储系统进行交互

posted @ 2017-07-11 11:11 jialiming 阅读(394) 评论(0) 编辑收藏举报

刷新页面返回顶部

jialiming

spark 教程四 spark的 Action操作

公告