spark编程模型(一)之RDD的类型

spark中的RDD操作类型可以分为四类:创建操作(creation)、转换操作(transformation)、控制操作(control)、行为操作(action

  • 创建操作(Creation Operation)
    主要用于创建RDD。创建RDD的两种方法,一种是parallelize或者makeRDD一个已存在的集合,另一种是在外部存储系统(比如HDFSHBASE)中引用一个数据集

  • 转换操作(Transformation Operation)
    RDD通过一定的操作变换成新的RDD,比如HadoopRDD可以使用map操作变换成MappedRDDRDD的转换操作是惰性操作,它只定义了一个新的RDDs,并没有立即执行

  • 控制操作(Control Operation)
    进行RDD持久化,可以让RDD按照不用的存储策略保存在磁盘或者内存中,主要有persistcache两个方法,实际上cache是使用persist的快捷方法,使用了默认的存储级别MEMORY_ONLYRDD缓存在内存中

  • 行为操作(Action Operation)
    主要是一些能够触发spark运行的操作,比如对RDD进行collect。spark中action操作主要分为两类,一类的操作结果变成scala的集合或者变量,另一类将RDD保存到外部文件或者数据库中

posted @ 2018-08-11 01:16  oldsix666  阅读(267)  评论(0编辑  收藏  举报