摘要:
2.5 RDD中的函数传递 在实际开发中我们往往需要自己定义一些对于RDD的操作,那么此时需要主要的是,初始化工作是在Driver端进行的,而实际运行程序是在Executor端进行的,这就涉及到了跨进程通信,是需要序列化的。下面我们看几个例子: 2.5.1 传递一个方法 1.创建一个类 class 阅读全文
摘要:
2.1 编程模型 在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count, collect等),或者是向存储系统保存数据(save 阅读全文
摘要:
2.4 Action 2.4.1 reduce(func)案例 1. 作用:通过func函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。 2. 需求:创建一个RDD,将所有元素聚合得到结果 (1)创建一个RDD[Int] scala val rdd1 = sc.makeRDD(1 t 阅读全文
摘要:
1.1 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 1.2 RDD的属性 1) 一组分区(Partition),即数据集的基 阅读全文