摘要: 文本中有如下内容:1 52 43 61 32 1现要求对文本行进行排序,第一列相同时,比较第二列Java版:package sparkcore.java;import java.io.Serializable;import scala.math.Ordered;/** * 自定义的二次排序key */public class SecondarySortKey implements Orde... 阅读全文
posted @ 2017-07-31 19:51 江正军 阅读(844) 评论(0) 推荐(0) 编辑
摘要: SAP ——ABAP/4 技术总结 V3.0 2014-10-14 --江正军 SAP ——ABAP/4 技术总结 V3.0 2014-10-14 --江正军 1. 基础... 1 1.1. 基本数据类型... 1 1.1.1. P类型(压缩型)数据... 1 1.2. TYPE、LIKE. 2 1 阅读全文
posted @ 2017-07-31 18:12 江正军 阅读(161593) 评论(9) 推荐(20) 编辑
摘要: 1、Java版本: 1.1、取前3package sparkcore.java;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apac... 阅读全文
posted @ 2017-07-31 18:03 江正军 阅读(618) 评论(0) 推荐(0) 编辑
摘要: 共享变量工作原理Spark一个非常重要的特性就是共享变量。 默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量,那么这种方式是做不到的。 Spark为此提供了两种共享变量,一种是Broadcast Variable(广播变量),另一种是Accumulator(累加变量)。... 阅读全文
posted @ 2017-07-31 12:46 江正军 阅读(1824) 评论(0) 推荐(0) 编辑
摘要: package sparkcore.java;import java.util.Arrays;import java.util.Iterator;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import ... 阅读全文
posted @ 2017-07-31 12:46 江正军 阅读(699) 评论(0) 推荐(0) 编辑
摘要: 为了避免多次计算同一个RDD(如上面的同一result RDD就调用了两次Action操作),可以让Spark对数据进行持久化。当我们让Spark持久化存储一个RDD时,计算出RDD的节点会分别保存它们所求出的分区数据。如果一个有持久化数据的节点发生故障,Spark会在需要用到缓存的数据时重算丢失的数据分区。Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时... 阅读全文
posted @ 2017-07-31 12:44 江正军 阅读(951) 评论(0) 推荐(0) 编辑
摘要: 1、reduce:2、collect:3、count:4、take:5、saveAsTextFile:6、countByKey:7、foreach:package sparkcore.java;import java.util.Arrays;import java.util.List;import java.util.Map;import org.apache.spark.SparkConf;im... 阅读全文
posted @ 2017-07-31 12:43 江正军 阅读(452) 评论(0) 推荐(0) 编辑
摘要: 常用Transformation 注:某些函数只有PairRDD只有,而普通的RDD则没有,比如gropuByKey、reduceByKey、sortByKey、join、cogroup等函数要根据Key进行分组或直接操作 RDD基本转换: RDD[U] map(f: T => U) T:原RDD中元素类型 U:新RDD中元素类型 ... 阅读全文
posted @ 2017-07-31 12:42 江正军 阅读(1707) 评论(0) 推荐(0) 编辑