spark编程模型(一)之RDD的类型
spark中的RDD操作类型可以分为四类:创建操作(creation)、转换操作(transformation)、控制操作(control)、行为操作(action)
-
创建操作(
Creation Operation)
主要用于创建RDD。创建RDD的两种方法,一种是parallelize或者makeRDD一个已存在的集合,另一种是在外部存储系统(比如HDFS、HBASE)中引用一个数据集 -
转换操作(
Transformation Operation)
将RDD通过一定的操作变换成新的RDD,比如HadoopRDD可以使用map操作变换成MappedRDD,RDD的转换操作是惰性操作,它只定义了一个新的RDDs,并没有立即执行 -
控制操作(
Control Operation)
进行RDD持久化,可以让RDD按照不用的存储策略保存在磁盘或者内存中,主要有persist、cache两个方法,实际上cache是使用persist的快捷方法,使用了默认的存储级别MEMORY_ONLY将RDD缓存在内存中 -
行为操作(
Action Operation)
主要是一些能够触发spark运行的操作,比如对RDD进行collect。spark中action操作主要分为两类,一类的操作结果变成scala的集合或者变量,另一类将RDD保存到外部文件或者数据库中

浙公网安备 33010602011771号